Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Documentazione sull'orchestrazione di AI/ML su Cloud Run

Cloud Run è una piattaforma completamente gestita che ti consente di eseguire le tue applicazioni containerizzate, inclusi i carichi di lavoro di AI/ML, direttamente sull'infrastruttura scalabile di Google. Gestisce l'infrastruttura per te, così puoi concentrarti sulla scrittura del codice anziché dedicare tempo al funzionamento, alla configurazione e allo scaling delle risorse Cloud Run. Le funzionalità di Cloud Run offrono quanto segue:

Acceleratori hardware: accedi e gestisci le GPU per l'inferenza su larga scala.
Supporto dei framework: esegui l'integrazione con i framework di erogazione del modello che già conosci e di cui ti fidi, come Hugging Face, TGI e vLLM.
Piattaforma gestita: ottieni tutti i vantaggi di una piattaforma gestita per automatizzare, scalare e migliorare la sicurezza dell'intero ciclo di vita dell'AI/ML, mantenendo la flessibilità.

Esplora i nostri tutorial e le nostre best practice per scoprire come Cloud Run può ottimizzare i tuoi carichi di lavoro AI/ML.

Inizia senza costi

Inizia la tua proof of concept con 300 $di credito senza costi

Sviluppa con i nostri modelli e strumenti di AI generativa più recenti.
Usufruisci dell'utilizzo senza costi di oltre 20 tra i prodotti più apprezzati, tra cui Compute Engine e le API AI.
Nessun addebito automatico, nessun impegno

Visualizza le offerte di prodotti senza costi

Continua a esplorare con oltre 20 prodotti Always Free.

Accedi a oltre 20 prodotti senza costi per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.

Risorse di documentazione

Trova guide rapide e guide, esamina i riferimenti principali e ricevi assistenza per i problemi comuni.

Esplora la formazione autonoma, i casi d'uso, le architetture di riferimento e gli esempi di codice con esempi su come utilizzare e collegare i servizi Google Cloud .

Caso d'uso

Guida agli avvii a freddo dell'AI su

Ottimizza la latenza di avvio a freddo per l'inferenza LLM containerizzata su utilizzando le impostazioni di configurazione serverless e la messa a punto del pattern di progettazione dell'architettura.

Avvii a freddo Latenza Ottimizzazione LLM

Caso d'uso

Protezione degli agenti AI con l'autorizzazione MCP

Configura e applica le regole di autorizzazione del Model Context Protocol (MCP) per proteggere la connettività degli strumenti remoti per gli agenti AI di cui è stato eseguito il deployment su .

Sicurezza MCP Agenti

Caso d'uso

AI Studio consente di creare codice full-stack con , Firebase e , senza carta di credito

Esegui il deployment di applicazioni full-stack su direttamente dalla modalità di creazione di Google AI Studio con Firebase integrato e supporto per il backup.

AI Studio Firebase vibe coding

Caso d'uso

Esegui le tue applicazioni di inferenza AI su con GPU NVIDIA

Utilizza le GPU NVIDIA L4 su per l'inferenza AI in tempo reale, inclusi i vantaggi di avvio a freddo rapido e scalabilità fino a zero per i modelli linguistici di grandi dimensioni (LLM).

GPU LLM

Caso d'uso

: il modo più rapido per portare le tue applicazioni AI in produzione

Scopri come utilizzare per applicazioni AI pronte per la produzione. Questa guida descrive casi d'uso come la suddivisione del traffico per i prompt di test A/B, i pattern RAG (Retrieval-Augmented Generation) e la connettività agli spazi vettoriali.

Applicazioni AI Suddivisione del traffico per i test A/B Pattern RAG Archivi vettoriali Connettività agli archivi vettoriali

Caso d'uso

Deployment dell'AI semplificato: esegui il deployment della tua app su da AI Studio o da agenti AI compatibili con MCP

Deployment con un clic da Google AI Studio a e al server MCP (Model Context Protocol) per attivare gli agenti AI negli IDE o negli SDK per agenti ed eseguire il deployment delle app.

Server MCP implementazioni

Caso d'uso

Supercharging con la potenza della GPU: una nuova era per i workload AI

Integra le GPU NVIDIA L4 con per un servizio LLM conveniente. Questa guida enfatizza la scalabilità fino a zero e fornisce i passaggi di deployment per modelli come 2 con Ollama.

LLM GPU Ollama Ottimizzazione dei costi

Caso d'uso

Continui a creare pacchetti di modelli di AI nei container? Fai così su

Disaccoppia i file di modelli di grandi dimensioni dall'immagine container utilizzando . Il disaccoppiamento migliora i tempi di compilazione, semplifica gli aggiornamenti e crea un'architettura di pubblicazione più scalabile.

Packaging del modello Best practice Modelli di grandi dimensioni

Caso d'uso

Crea pacchetti ed esegui il deployment dei tuoi modelli di machine learning su con Cog

Utilizza il framework Cog, ottimizzato per il servizio ML, per semplificare il packaging e il deployment dei container in .

Ingranaggio Packaging del modello Deployment Tutorial

Caso d'uso

Deployment e monitoraggio di modelli ML con : leggero, scalabile ed economico

Utilizza per l'inferenza ML leggera e crea uno stack di monitoraggio conveniente utilizzando i servizi nativi come e .

Monitoraggio MLOps Efficienza dei costi Inferenza

Documentazione sull'orchestrazione di AI/ML su Cloud Run

Inizia la tua proof of concept con 300 $di credito senza costi

Continua a esplorare con oltre 20 prodotti Always Free.

Esegui soluzioni di AI

Inferenza con le GPU

Risoluzione dei problemi

Video correlati