Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

「Cloud Run 中的 AI/機器學習自動化調度管理機制」說明文件

Cloud Run 是全代管平台，可讓您直接在 Google 的可擴充基礎架構上執行容器化應用程式，包括 AI/ML 工作負載。這項服務會為您處理基礎架構，因此您不必花時間運作、設定及擴充 Cloud Run 資源，可以專心編寫程式碼。Cloud Run 的功能提供下列項目：

硬體加速器：存取及管理 GPU，大規模進行推論。
支援架構：整合您已熟悉且信任的提供模型架構，例如 Hugging Face、TGI 和 vLLM。
代管平台：充分運用代管平台的優勢，自動化、擴大規模及提升整個 AI/機器學習生命週期的安全性，同時維持彈性。

歡迎參閱我們的教學課程和最佳做法，瞭解如何運用 Cloud Run 最佳化 AI/機器學習工作負載。

免費試用

使用價值 $300 美元的免費抵免額，開始概念驗證

運用我們最新生成式 AI 模型和工具進行開發。
免費使用 Compute Engine 和 AI API 等 20 多項熱銷產品。
不會自動收費，也無需綁約

查看免費產品優惠

繼續探索 20 多項永久免費的產品

存取 20 多項常見用途的免費產品，包括 AI API、VM 和資料倉儲等。

說明文件資源

查看快速入門導覽課程與指南、瀏覽重要參考資料，並獲取常見問題相關說明。

執行 AI 解決方案

概念
探索 AI 用途
概念
託管 AI 代理
操作說明
託管 A2A 代理程式
操作說明
部署 A2A 代理
操作說明
託管 MCP 伺服器
教學課程
建構及部署遠端 MCP 伺服器
概念
執行程式碼
概念
瀏覽器和作業系統自動化
教學課程
快速入門導覽課程：建構及部署 Python (LangChain) 網頁應用程式
教學課程
快速入門導覽課程：建構及部署 Python (smolagents) 網頁應用程式

使用 GPU 進行推論

疑難排解

探索自修訓練課程、用途、參考架構和程式碼範例，瞭解如何使用及連結 Google Cloud 服務。

用途

Google 搜尋的 AI 冷啟動指南

使用無伺服器設定和架構設計模式調整，盡量縮短容器化 LLM 推論的冷啟動延遲時間。

冷啟動延遲最佳化大型語言模型

用途

透過 MCP 授權保護 AI 代理程式

設定及強制執行 Model Context Protocol (MCP) 授權規則，確保部署在的 AI 代理可安全連線至遠端工具。

安全性 MCP 代理程式

用途

AI Studio 結合 Firebase 和，讓您體驗全端直覺式程式開發，無須提供信用卡資訊

透過整合的 Firebase 和備份支援功能，直接從 Google AI Studio 的建構模式部署全端應用程式。

AI Studio Firebase vibe coding

用途

在上使用 NVIDIA GPU 執行 AI 推論應用程式

在上使用 NVIDIA L4 GPU 進行即時 AI 推論，包括大型語言模型 (LLM) 的快速冷啟動和零擴充優勢。

GPU LLM

用途

：將 AI 應用程式導入正式環境最快速的方法

瞭解如何使用建構可投入正式環境的 AI 應用程式。本指南說明各種用途，例如 A/B 測試提示的流量分配、RAG (檢索增強生成) 模式，以及與向量儲存區的連線。

AI 應用程式 A/B 測試的流量分配 RAG 模式向量儲存區向量儲存區連線

用途

輕鬆部署 AI：將應用程式從 AI Studio 或 MCP 相容的 AI 代理程式部署至

從 Google AI Studio 一鍵部署至和 MCP (Model Context Protocol) 伺服器，在 IDE 或 Agent SDK 中啟用 AI 代理，並部署應用程式。

MCP 伺服器部署作業

用途

利用 GPU 提升效能：AI 工作負載的新時代

整合 NVIDIA L4 GPU 與，提供符合成本效益的 LLM 服務。本指南著重於將資源調度率降至零，並提供 2 等模型的部署步驟 (使用 Ollama)。

LLM GPU Ollama 成本最佳化

用途

您是否仍將 AI 模型封裝於容器中？請改為在

使用將大型模型檔案與容器映像檔分離。解除耦合可縮短建構時間、簡化更新，並建立更具延展性的服務架構。

模型封裝最佳做法大型模型

用途

使用 Cog 將機器學習模型封裝及部署至

使用專為機器學習服務最佳化的 Cog 架構，簡化容器的封裝和部署作業。。

Cog 模型封裝部署教學課程

用途

使用部署及監控機器學習模型：輕量、可擴充且符合成本效益

使用進行輕量型機器學習推論，並使用等原生服務 (例如和 ) 建構經濟實惠的監控堆疊。

監控機器學習運作成本效益推論