「Cloud Run 中的 AI/機器學習自動化調度管理機制」說明文件
Cloud Run 是全代管平台,可讓您直接在 Google 的可擴充基礎架構上執行容器化應用程式,包括 AI/ML 工作負載。這項服務會為您處理基礎架構,因此您不必花時間運作、設定及擴充 Cloud Run 資源,可以專心編寫程式碼。Cloud Run 的功能提供下列項目:
- 硬體加速器:存取及管理 GPU,大規模進行推論。
- 支援架構:整合您已熟悉且信任的提供模型架構,例如 Hugging Face、TGI 和 vLLM。
- 代管平台:充分運用代管平台的優勢,自動化、擴大規模及提升整個 AI/機器學習生命週期的安全性,同時維持彈性。
歡迎參閱我們的教學課程和最佳做法,瞭解如何運用 Cloud Run 最佳化 AI/機器學習工作負載。
使用價值 $300 美元的免費抵免額,開始概念驗證
- 運用我們最新生成式 AI 模型和工具進行開發。
- 免費使用 Compute Engine 和 AI API 等 20 多項熱銷產品。
- 不會自動收費,也無需綁約
繼續探索 20 多項永久免費的產品
存取 20 多項常見用途的免費產品,包括 AI API、VM 和資料倉儲等。
說明文件資源
執行 AI 解決方案
- 概念
- 概念
- 操作說明
- 操作說明
- 操作說明
- 教學課程
- 概念
- 概念
- 教學課程
- 教學課程
使用 GPU 進行推論
- 教學課程
- 操作說明
- 教學課程
- 最佳做法
- 教學課程
- 教學課程
- 最佳做法
- 最佳做法
疑難排解
- 概念
- 操作說明
- 操作說明
- 操作說明
相關資源
透過 MCP 授權保護 AI 代理程式
設定及強制執行 Model Context Protocol (MCP) 授權規則,確保部署在 的 AI 代理可安全連線至遠端工具。
AI Studio 結合 Firebase 和 ,讓您體驗全端直覺式程式開發,無須提供信用卡資訊
透過整合的 Firebase 和備份支援功能,直接從 Google AI Studio 的建構模式部署全端應用程式。
在 上使用 NVIDIA GPU 執行 AI 推論應用程式
在 上使用 NVIDIA L4 GPU 進行即時 AI 推論,包括大型語言模型 (LLM) 的快速冷啟動和零擴充優勢。
:將 AI 應用程式導入正式環境最快速的方法
瞭解如何使用 建構可投入正式環境的 AI 應用程式。本指南說明各種用途,例如 A/B 測試提示的流量分配、RAG (檢索增強生成) 模式,以及與向量儲存區的連線。
輕鬆部署 AI:將應用程式從 AI Studio 或 MCP 相容的 AI 代理程式部署至
從 Google AI Studio 一鍵部署至 和 MCP (Model Context Protocol) 伺服器,在 IDE 或 Agent SDK 中啟用 AI 代理,並部署應用程式。
利用 GPU 提升效能:AI 工作負載的新時代
整合 NVIDIA L4 GPU 與 ,提供符合成本效益的 LLM 服務。本指南著重於將資源調度率降至零,並提供 2 等模型的部署步驟 (使用 Ollama)。