Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Dokumentasi orkestrasi AI/ML di Cloud Run

Baca dokumentasi produk

Cloud Run adalah platform terkelola sepenuhnya yang memungkinkan Anda menjalankan aplikasi dalam container, termasuk workload AI/ML, langsung di infrastruktur Google yang skalabel. Cloud Run menangani infrastruktur untuk Anda, sehingga Anda dapat berfokus pada penulisan kode, bukan menghabiskan waktu untuk mengoperasikan, mengonfigurasi, dan menskalakan resource Cloud Run. Kemampuan Cloud Run menyediakan hal berikut:

Akselerator hardware: akses dan kelola GPU untuk inferensi dalam skala besar.
Dukungan framework: berintegrasi dengan framework penyajian model yang sudah Anda kenal dan percayai, seperti Hugging Face, TGI, dan vLLM.
Platform terkelola: dapatkan semua manfaat platform terkelola untuk mengotomatiskan, menskalakan, dan meningkatkan keamanan seluruh siklus proses AI/ML Anda sekaligus mempertahankan fleksibilitas.

Pelajari tutorial dan praktik terbaik kami untuk melihat cara Cloud Run dapat mengoptimalkan workload AI/ML Anda.

Mulai secara gratis

Mulai bukti konsep Anda dengan kredit gratis senilai $300

Kembangkan solusi dengan model dan alat AI generatif terbaru kami.
Dapatkan penggunaan gratis untuk lebih dari 20 produk populer, termasuk API Compute Engine dan AI.
Tanpa tagihan otomatis, tanpa komitmen.

Lihat penawaran produk gratis

Terus jelajahi dengan +20 produk yang selalu gratis.

Akses lebih dari 20 produk gratis untuk kasus penggunaan umum, termasuk API AI, VM, data warehouse, dan banyak lagi.

Referensi dokumentasi

Temukan pedoman dan panduan memulai, tinjau referensi utama, dan dapatkan bantuan terkait masalah umum.

Pelajari pelatihan mandiri, kasus penggunaan, arsitektur referensi, dan sampel kode yang berisi contoh cara menggunakan dan menghubungkan layanan Google Cloud .

Kasus penggunaan

Panduan untuk Start Dingin AI di

Mengoptimalkan latensi cold start untuk inferensi LLM dalam container di menggunakan setelan konfigurasi serverless dan penyesuaian pola desain arsitektur.

Mulai dingin Latensi Pengoptimalan LLM

Kasus penggunaan

Mengamankan agen AI dengan Otorisasi MCP

Konfigurasi dan terapkan aturan otorisasi Model Context Protocol (MCP) untuk mengamankan konektivitas alat jarak jauh bagi agen AI yang di-deploy di .

Keamanan MCP Agen

Kasus penggunaan

AI Studio memungkinkan vibe coding full-stack dengan , Firebase, dan , tanpa memerlukan kartu kredit

Deploy aplikasi full stack ke langsung dari Mode Build Google AI Studio dengan dukungan Firebase dan pencadangan terintegrasi.

AI Studio Firebase vibe coding

Kasus penggunaan

Jalankan aplikasi inferensi AI Anda di dengan GPU NVIDIA

Gunakan GPU NVIDIA L4 di untuk inferensi AI real-time, termasuk manfaat cold-start yang cepat dan penskalaan hingga nol untuk Model Bahasa Besar (LLM).

GPU LLM

Kasus penggunaan

: cara tercepat untuk membuat aplikasi AI Anda siap digunakan

Pelajari cara menggunakan untuk aplikasi AI yang siap produksi. Panduan ini menjelaskan kasus penggunaan seperti pembagian traffic untuk perintah pengujian A/B, pola RAG (Retrieval-Augmented Generation), dan konektivitas ke penyimpanan vektor.

Aplikasi AI pemisahan traffic untuk pengujian A/B pola RAG penyimpanan vektor konektivitas ke penyimpanan vektor

Kasus penggunaan

Deployment AI yang mudah: Deploy aplikasi Anda ke dari AI Studio atau agen AI yang kompatibel dengan MCP

Deployment sekali klik dari Google AI Studio ke server dan MCP (Model Context Protocol) untuk mengaktifkan agen AI di IDE atau SDK agen dan men-deploy aplikasi.

Server MCP deployment

Kasus penggunaan

Meningkatkan performa dengan daya GPU: Era baru untuk workload AI

Mengintegrasikan GPU NVIDIA L4 dengan untuk penayangan LLM yang hemat biaya. Panduan ini menekankan penskalaan hingga nol dan memberikan langkah-langkah deployment untuk model seperti 2 dengan Ollama.

LLM GPU Ollama Pengoptimalan Biaya

Kasus penggunaan

Masih mengemas model AI dalam container? Lakukan ini di

Pisahkan file model berukuran besar dari image container menggunakan . Pemisahan meningkatkan waktu build, menyederhanakan update, dan membuat arsitektur penayangan yang lebih skalabel.

Pengemasan Model Praktik Terbaik Model Besar

Kasus penggunaan

Buat paket dan deploy model machine learning Anda ke dengan Cog

Gunakan framework Cog yang dioptimalkan untuk penayangan ML guna menyederhanakan pengemasan dan deployment container ke .

Cog Pengemasan Model Deployment Tutorial

Kasus penggunaan

Men-deploy & memantau model ML dengan — Ringan, skalabel, dan hemat biaya

Gunakan untuk inferensi ML ringan dan bangun stack pemantauan yang hemat biaya dengan menggunakan layanan native seperti dan .

Pemantauan MLOps Efisiensi Biaya Inferensi

Dokumentasi orkestrasi AI/ML di Cloud Run

Mulai bukti konsep Anda dengan kredit gratis senilai $300

Terus jelajahi dengan +20 produk yang selalu gratis.

Menjalankan solusi AI

Inferensi dengan GPU

Memecahkan masalah

Video terkait