Dokumentasi orkestrasi AI/ML di Cloud Run

Cloud Run adalah platform terkelola sepenuhnya yang memungkinkan Anda menjalankan aplikasi dalam container, termasuk workload AI/ML, langsung di infrastruktur Google yang skalabel. Cloud Run menangani infrastruktur untuk Anda, sehingga Anda dapat berfokus pada penulisan kode, bukan menghabiskan waktu untuk mengoperasikan, mengonfigurasi, dan menskalakan resource Cloud Run. Kemampuan Cloud Run menyediakan hal berikut:

  • Akselerator hardware: akses dan kelola GPU untuk inferensi dalam skala besar.
  • Dukungan framework: berintegrasi dengan framework penyajian model yang sudah Anda kenal dan percayai, seperti Hugging Face, TGI, dan vLLM.
  • Platform terkelola: dapatkan semua manfaat platform terkelola untuk mengotomatiskan, menskalakan, dan meningkatkan keamanan seluruh siklus proses AI/ML Anda sekaligus mempertahankan fleksibilitas.

Pelajari tutorial dan praktik terbaik kami untuk melihat cara Cloud Run dapat mengoptimalkan workload AI/ML Anda.

  • Kembangkan solusi dengan model dan alat AI generatif terbaru kami.
  • Dapatkan penggunaan gratis untuk lebih dari 20 produk populer, termasuk API Compute Engine dan AI.
  • Tanpa tagihan otomatis, tanpa komitmen.

Terus jelajahi dengan +20 produk yang selalu gratis.

Akses lebih dari 20 produk gratis untuk kasus penggunaan umum, termasuk API AI, VM, data warehouse, dan banyak lagi.

Pelajari pelatihan mandiri, kasus penggunaan, arsitektur referensi, dan sampel kode yang berisi contoh cara menggunakan dan menghubungkan layanan Google Cloud .
Kasus penggunaan
Kasus penggunaan

Mengoptimalkan latensi cold start untuk inferensi LLM dalam container di menggunakan setelan konfigurasi serverless dan penyesuaian pola desain arsitektur.

Mulai dingin Latensi Pengoptimalan LLM

Kasus penggunaan
Kasus penggunaan

Konfigurasi dan terapkan aturan otorisasi Model Context Protocol (MCP) untuk mengamankan konektivitas alat jarak jauh bagi agen AI yang di-deploy di .

Keamanan MCP Agen

Kasus penggunaan
Kasus penggunaan

Deploy aplikasi full stack ke langsung dari Mode Build Google AI Studio dengan dukungan Firebase dan pencadangan terintegrasi.

AI Studio Firebase vibe coding

Kasus penggunaan
Kasus penggunaan

Gunakan GPU NVIDIA L4 di untuk inferensi AI real-time, termasuk manfaat cold-start yang cepat dan penskalaan hingga nol untuk Model Bahasa Besar (LLM).

GPU LLM

Kasus penggunaan
Kasus penggunaan

Pelajari cara menggunakan untuk aplikasi AI yang siap produksi. Panduan ini menjelaskan kasus penggunaan seperti pembagian traffic untuk perintah pengujian A/B, pola RAG (Retrieval-Augmented Generation), dan konektivitas ke penyimpanan vektor.

Aplikasi AI pemisahan traffic untuk pengujian A/B pola RAG penyimpanan vektor konektivitas ke penyimpanan vektor

Kasus penggunaan
Kasus penggunaan

Deployment sekali klik dari Google AI Studio ke server dan MCP (Model Context Protocol) untuk mengaktifkan agen AI di IDE atau SDK agen dan men-deploy aplikasi.

Server MCP deployment

Kasus penggunaan
Kasus penggunaan

Mengintegrasikan GPU NVIDIA L4 dengan untuk penayangan LLM yang hemat biaya. Panduan ini menekankan penskalaan hingga nol dan memberikan langkah-langkah deployment untuk model seperti 2 dengan Ollama.

LLM GPU Ollama Pengoptimalan Biaya

Kasus penggunaan
Kasus penggunaan

Pisahkan file model berukuran besar dari image container menggunakan . Pemisahan meningkatkan waktu build, menyederhanakan update, dan membuat arsitektur penayangan yang lebih skalabel.

Pengemasan Model Praktik Terbaik Model Besar

Kasus penggunaan
Kasus penggunaan

Gunakan framework Cog yang dioptimalkan untuk penayangan ML guna menyederhanakan pengemasan dan deployment container ke .

Cog Pengemasan Model Deployment Tutorial

Kasus penggunaan
Kasus penggunaan

Gunakan untuk inferensi ML ringan dan bangun stack pemantauan yang hemat biaya dengan menggunakan layanan native seperti dan .

Pemantauan MLOps Efisiensi Biaya Inferensi

Video terkait