Documentazione sull'orchestrazione di AI/ML su Cloud Run

Cloud Run è una piattaforma completamente gestita che ti consente di eseguire le tue applicazioni containerizzate, inclusi i carichi di lavoro di AI/ML, direttamente sull'infrastruttura scalabile di Google. Gestisce l'infrastruttura per te, così puoi concentrarti sulla scrittura del codice anziché dedicare tempo al funzionamento, alla configurazione e allo scaling delle risorse Cloud Run. Le funzionalità di Cloud Run offrono quanto segue:

  • Acceleratori hardware: accedi e gestisci le GPU per l'inferenza su larga scala.
  • Supporto dei framework: esegui l'integrazione con i framework di erogazione del modello che già conosci e di cui ti fidi, come Hugging Face, TGI e vLLM.
  • Piattaforma gestita: ottieni tutti i vantaggi di una piattaforma gestita per automatizzare, scalare e migliorare la sicurezza dell'intero ciclo di vita dell'AI/ML, mantenendo la flessibilità.

Esplora i nostri tutorial e le nostre best practice per scoprire come Cloud Run può ottimizzare i tuoi carichi di lavoro AI/ML.

  • Sviluppa con i nostri modelli e strumenti di AI generativa più recenti.
  • Usufruisci dell'utilizzo senza costi di oltre 20 tra i prodotti più apprezzati, tra cui Compute Engine e le API AI.
  • Nessun addebito automatico, nessun impegno

Continua a esplorare con oltre 20 prodotti Always Free.

Accedi a oltre 20 prodotti senza costi per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.

Esplora la formazione autonoma, i casi d'uso, le architetture di riferimento e gli esempi di codice con esempi su come utilizzare e collegare i servizi Google Cloud .
Caso d'uso
Casi d'uso

Ottimizza la latenza di avvio a freddo per l'inferenza LLM containerizzata su utilizzando le impostazioni di configurazione serverless e la messa a punto del pattern di progettazione dell'architettura.

Avvii a freddo Latenza Ottimizzazione LLM

Caso d'uso
Casi d'uso

Configura e applica le regole di autorizzazione del Model Context Protocol (MCP) per proteggere la connettività degli strumenti remoti per gli agenti AI di cui è stato eseguito il deployment su .

Sicurezza MCP Agenti

Caso d'uso
Casi d'uso

Esegui il deployment di applicazioni full-stack su direttamente dalla modalità di creazione di Google AI Studio con Firebase integrato e supporto per il backup.

AI Studio Firebase vibe coding

Caso d'uso
Casi d'uso

Utilizza le GPU NVIDIA L4 su per l'inferenza AI in tempo reale, inclusi i vantaggi di avvio a freddo rapido e scalabilità fino a zero per i modelli linguistici di grandi dimensioni (LLM).

GPU LLM

Caso d'uso
Casi d'uso

Scopri come utilizzare per applicazioni AI pronte per la produzione. Questa guida descrive casi d'uso come la suddivisione del traffico per i prompt di test A/B, i pattern RAG (Retrieval-Augmented Generation) e la connettività agli spazi vettoriali.

Applicazioni AI Suddivisione del traffico per i test A/B Pattern RAG Archivi vettoriali Connettività agli archivi vettoriali

Caso d'uso
Casi d'uso

Deployment con un clic da Google AI Studio a e al server MCP (Model Context Protocol) per attivare gli agenti AI negli IDE o negli SDK per agenti ed eseguire il deployment delle app.

Server MCP implementazioni

Caso d'uso
Casi d'uso

Integra le GPU NVIDIA L4 con per un servizio LLM conveniente. Questa guida enfatizza la scalabilità fino a zero e fornisce i passaggi di deployment per modelli come 2 con Ollama.

LLM GPU Ollama Ottimizzazione dei costi

Caso d'uso
Casi d'uso

Disaccoppia i file di modelli di grandi dimensioni dall'immagine container utilizzando . Il disaccoppiamento migliora i tempi di compilazione, semplifica gli aggiornamenti e crea un'architettura di pubblicazione più scalabile.

Packaging del modello Best practice Modelli di grandi dimensioni

Caso d'uso
Casi d'uso

Utilizza il framework Cog, ottimizzato per il servizio ML, per semplificare il packaging e il deployment dei container in .

Ingranaggio Packaging del modello Deployment Tutorial

Caso d'uso
Casi d'uso

Utilizza per l'inferenza ML leggera e crea uno stack di monitoraggio conveniente utilizzando i servizi nativi come e .

Monitoraggio MLOps Efficienza dei costi Inferenza

Video correlati