Documentazione sull'orchestrazione di AI/ML su Cloud Run
Cloud Run è una piattaforma completamente gestita che ti consente di eseguire le tue applicazioni containerizzate, inclusi i carichi di lavoro di AI/ML, direttamente sull'infrastruttura scalabile di Google. Gestisce l'infrastruttura per te, così puoi concentrarti sulla scrittura del codice anziché dedicare tempo al funzionamento, alla configurazione e allo scaling delle risorse Cloud Run. Le funzionalità di Cloud Run offrono quanto segue:
- Acceleratori hardware: accedi e gestisci le GPU per l'inferenza su larga scala.
- Supporto dei framework: esegui l'integrazione con i framework di erogazione del modello che già conosci e di cui ti fidi, come Hugging Face, TGI e vLLM.
- Piattaforma gestita: ottieni tutti i vantaggi di una piattaforma gestita per automatizzare, scalare e migliorare la sicurezza dell'intero ciclo di vita dell'AI/ML, mantenendo la flessibilità.
Esplora i nostri tutorial e le nostre best practice per scoprire come Cloud Run può ottimizzare i tuoi carichi di lavoro AI/ML.
Inizia la tua proof of concept con 300 $di credito senza costi
- Sviluppa con i nostri modelli e strumenti di AI generativa più recenti.
- Usufruisci dell'utilizzo senza costi di oltre 20 tra i prodotti più apprezzati, tra cui Compute Engine e le API AI.
- Nessun addebito automatico, nessun impegno
Continua a esplorare con oltre 20 prodotti Always Free.
Accedi a oltre 20 prodotti senza costi per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.
Risorse di documentazione
Esegui soluzioni di AI
- Concept
- Concept
- Istruzioni
- Istruzioni
- Istruzioni
- Tutorial
- Concept
- Concept
- Tutorial
- Tutorial
Inferenza con le GPU
- Tutorial
- Istruzioni
- Tutorial
- Best practice
- Tutorial
- Tutorial
- Best practice
- Best practice
Risoluzione dei problemi
- Concept
- Istruzioni
- Istruzioni
- Istruzioni
Risorse correlate
Guida agli avvii a freddo dell'AI su
Ottimizza la latenza di avvio a freddo per l'inferenza LLM containerizzata su utilizzando le impostazioni di configurazione serverless e la messa a punto del pattern di progettazione dell'architettura.
Protezione degli agenti AI con l'autorizzazione MCP
Configura e applica le regole di autorizzazione del Model Context Protocol (MCP) per proteggere la connettività degli strumenti remoti per gli agenti AI di cui è stato eseguito il deployment su .
AI Studio consente di creare codice full-stack con , Firebase e , senza carta di credito
Esegui il deployment di applicazioni full-stack su direttamente dalla modalità di creazione di Google AI Studio con Firebase integrato e supporto per il backup.
Esegui le tue applicazioni di inferenza AI su con GPU NVIDIA
Utilizza le GPU NVIDIA L4 su per l'inferenza AI in tempo reale, inclusi i vantaggi di avvio a freddo rapido e scalabilità fino a zero per i modelli linguistici di grandi dimensioni (LLM).
: il modo più rapido per portare le tue applicazioni AI in produzione
Scopri come utilizzare per applicazioni AI pronte per la produzione. Questa guida descrive casi d'uso come la suddivisione del traffico per i prompt di test A/B, i pattern RAG (Retrieval-Augmented Generation) e la connettività agli spazi vettoriali.
Deployment dell'AI semplificato: esegui il deployment della tua app su da AI Studio o da agenti AI compatibili con MCP
Deployment con un clic da Google AI Studio a e al server MCP (Model Context Protocol) per attivare gli agenti AI negli IDE o negli SDK per agenti ed eseguire il deployment delle app.
Supercharging con la potenza della GPU: una nuova era per i workload AI
Integra le GPU NVIDIA L4 con per un servizio LLM conveniente. Questa guida enfatizza la scalabilità fino a zero e fornisce i passaggi di deployment per modelli come 2 con Ollama.
Continui a creare pacchetti di modelli di AI nei container? Fai così su
Disaccoppia i file di modelli di grandi dimensioni dall'immagine container utilizzando . Il disaccoppiamento migliora i tempi di compilazione, semplifica gli aggiornamenti e crea un'architettura di pubblicazione più scalabile.
Crea pacchetti ed esegui il deployment dei tuoi modelli di machine learning su con Cog
Utilizza il framework Cog, ottimizzato per il servizio ML, per semplificare il packaging e il deployment dei container in .
Deployment e monitoraggio di modelli ML con : leggero, scalabile ed economico
Utilizza per l'inferenza ML leggera e crea uno stack di monitoraggio conveniente utilizzando i servizi nativi come e .