Dokumentasi orkestrasi AI/ML di Cloud Run
Cloud Run adalah platform terkelola sepenuhnya yang memungkinkan Anda menjalankan aplikasi dalam container, termasuk workload AI/ML, langsung di infrastruktur Google yang skalabel. Cloud Run menangani infrastruktur untuk Anda, sehingga Anda dapat berfokus pada penulisan kode, bukan menghabiskan waktu untuk mengoperasikan, mengonfigurasi, dan menskalakan resource Cloud Run. Kemampuan Cloud Run menyediakan hal berikut:
- Akselerator hardware: akses dan kelola GPU untuk inferensi dalam skala besar.
- Dukungan framework: berintegrasi dengan framework penyajian model yang sudah Anda kenal dan percayai, seperti Hugging Face, TGI, dan vLLM.
- Platform terkelola: dapatkan semua manfaat platform terkelola untuk mengotomatiskan, menskalakan, dan meningkatkan keamanan seluruh siklus proses AI/ML Anda sekaligus mempertahankan fleksibilitas.
Pelajari tutorial dan praktik terbaik kami untuk melihat cara Cloud Run dapat mengoptimalkan workload AI/ML Anda.
Mulai bukti konsep Anda dengan kredit gratis senilai $300
- Kembangkan solusi dengan model dan alat AI generatif terbaru kami.
- Dapatkan penggunaan gratis untuk lebih dari 20 produk populer, termasuk API Compute Engine dan AI.
- Tanpa tagihan otomatis, tanpa komitmen.
Terus jelajahi dengan +20 produk yang selalu gratis.
Akses lebih dari 20 produk gratis untuk kasus penggunaan umum, termasuk API AI, VM, data warehouse, dan banyak lagi.
Referensi dokumentasi
Menjalankan solusi AI
- Konsep
- Konsep
- Petunjuk
- Petunjuk
- Petunjuk
- Tutorial
- Konsep
- Konsep
- Tutorial
- Tutorial
Inferensi dengan GPU
- Tutorial
- Petunjuk
- Tutorial
- Praktik terbaik
- Tutorial
- Tutorial
- Praktik terbaik
- Praktik terbaik
Memecahkan masalah
- Konsep
- Petunjuk
- Petunjuk
- Petunjuk
Referensi terkait
Panduan untuk Start Dingin AI di
Mengoptimalkan latensi cold start untuk inferensi LLM dalam container di menggunakan setelan konfigurasi serverless dan penyesuaian pola desain arsitektur.
Mengamankan agen AI dengan Otorisasi MCP
Konfigurasi dan terapkan aturan otorisasi Model Context Protocol (MCP) untuk mengamankan konektivitas alat jarak jauh bagi agen AI yang di-deploy di .
AI Studio memungkinkan vibe coding full-stack dengan , Firebase, dan , tanpa memerlukan kartu kredit
Deploy aplikasi full stack ke langsung dari Mode Build Google AI Studio dengan dukungan Firebase dan pencadangan terintegrasi.
Jalankan aplikasi inferensi AI Anda di dengan GPU NVIDIA
Gunakan GPU NVIDIA L4 di untuk inferensi AI real-time, termasuk manfaat cold-start yang cepat dan penskalaan hingga nol untuk Model Bahasa Besar (LLM).
: cara tercepat untuk membuat aplikasi AI Anda siap digunakan
Pelajari cara menggunakan untuk aplikasi AI yang siap produksi. Panduan ini menjelaskan kasus penggunaan seperti pembagian traffic untuk perintah pengujian A/B, pola RAG (Retrieval-Augmented Generation), dan konektivitas ke penyimpanan vektor.
Deployment AI yang mudah: Deploy aplikasi Anda ke dari AI Studio atau agen AI yang kompatibel dengan MCP
Deployment sekali klik dari Google AI Studio ke server dan MCP (Model Context Protocol) untuk mengaktifkan agen AI di IDE atau SDK agen dan men-deploy aplikasi.
Meningkatkan performa dengan daya GPU: Era baru untuk workload AI
Mengintegrasikan GPU NVIDIA L4 dengan untuk penayangan LLM yang hemat biaya. Panduan ini menekankan penskalaan hingga nol dan memberikan langkah-langkah deployment untuk model seperti 2 dengan Ollama.
Masih mengemas model AI dalam container? Lakukan ini di
Pisahkan file model berukuran besar dari image container menggunakan . Pemisahan meningkatkan waktu build, menyederhanakan update, dan membuat arsitektur penayangan yang lebih skalabel.
Buat paket dan deploy model machine learning Anda ke dengan Cog
Gunakan framework Cog yang dioptimalkan untuk penayangan ML guna menyederhanakan pengemasan dan deployment container ke .
Men-deploy & memantau model ML dengan — Ringan, skalabel, dan hemat biaya
Gunakan untuk inferensi ML ringan dan bangun stack pemantauan yang hemat biaya dengan menggunakan layanan native seperti dan .