「Cloud Run 中的 AI/機器學習自動化調度管理機制」說明文件

Cloud Run 是全代管平台,可讓您直接在 Google 的可擴充基礎架構上執行容器化應用程式,包括 AI/ML 工作負載。這項服務會為您處理基礎架構,因此您不必花時間運作、設定及擴充 Cloud Run 資源,可以專心編寫程式碼。Cloud Run 的功能提供下列項目:

  • 硬體加速器:存取及管理 GPU,大規模進行推論。
  • 支援架構:整合您已熟悉且信任的提供模型架構,例如 Hugging Face、TGI 和 vLLM。
  • 代管平台:充分運用代管平台的優勢,自動化、擴大規模及提升整個 AI/機器學習生命週期的安全性,同時維持彈性。

歡迎參閱我們的教學課程和最佳做法,瞭解如何運用 Cloud Run 最佳化 AI/機器學習工作負載。

  • 運用我們最新生成式 AI 模型和工具進行開發。
  • 免費使用 Compute Engine 和 AI API 等 20 多項熱銷產品。
  • 不會自動收費,也無需綁約

繼續探索 20 多項永久免費的產品

存取 20 多項常見用途的免費產品,包括 AI API、VM 和資料倉儲等。

探索自修訓練課程、用途、參考架構和程式碼範例,瞭解如何使用及連結 Google Cloud 服務。
用途
用途

使用無伺服器設定和架構設計模式調整,盡量縮短容器化 LLM 推論的冷啟動延遲時間。

冷啟動 延遲 最佳化 大型語言模型

用途
用途

設定及強制執行 Model Context Protocol (MCP) 授權規則,確保部署在 的 AI 代理可安全連線至遠端工具。

安全性 MCP 代理程式

用途
用途

透過整合的 Firebase 和備份支援功能,直接從 Google AI Studio 的建構模式部署全端應用程式。

AI Studio Firebase vibe coding

用途
用途

在 上使用 NVIDIA L4 GPU 進行即時 AI 推論,包括大型語言模型 (LLM) 的快速冷啟動和零擴充優勢。

GPU LLM

用途
用途

瞭解如何使用 建構可投入正式環境的 AI 應用程式。本指南說明各種用途,例如 A/B 測試提示的流量分配、RAG (檢索增強生成) 模式,以及與向量儲存區的連線。

AI 應用程式 A/B 測試的流量分配 RAG 模式 向量儲存區 向量儲存區連線

用途
用途

從 Google AI Studio 一鍵部署至 和 MCP (Model Context Protocol) 伺服器,在 IDE 或 Agent SDK 中啟用 AI 代理,並部署應用程式。

MCP 伺服器 部署作業

用途
用途

整合 NVIDIA L4 GPU 與 ,提供符合成本效益的 LLM 服務。本指南著重於將資源調度率降至零,並提供 2 等模型的部署步驟 (使用 Ollama)。

LLM GPU Ollama 成本最佳化

用途
用途

使用 將大型模型檔案與容器映像檔分離。解除耦合可縮短建構時間、簡化更新,並建立更具延展性的服務架構。

模型封裝 最佳做法 大型模型

用途
用途

使用專為機器學習服務最佳化的 Cog 架構,簡化容器的封裝和部署作業。 。

Cog 模型封裝 部署 教學課程

用途
用途

使用 進行輕量型機器學習推論,並使用 等原生服務 (例如 和 ) 建構經濟實惠的監控堆疊。

監控 機器學習運作 成本效益 推論

相關影片