Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Documentação da orquestração de IA/ML no Cloud Run

O Cloud Run é uma plataforma totalmente gerenciada que permite executar aplicativos conteinerizados, incluindo cargas de trabalho de IA/ML, diretamente na infraestrutura escalonável do Google. Ele lida com a infraestrutura para você, assim você pode se concentrar em escrever o código em vez de gastar tempo operando, configurando e escalonando seus recursos do Cloud Run. Os recursos do Cloud Run oferecem o seguinte:

Aceleradores de hardware: acesse e gerencie GPUs para inferência em grande escala.
Suporte a frameworks: integre-se aos frameworks de exibição de modelos que você já conhece e confia, como Hugging Face, TGI e vLLM.
Plataforma gerenciada: aproveite todos os benefícios de uma plataforma gerenciada para automatizar, escalonar e melhorar a segurança de todo o ciclo de vida de IA/ML, mantendo a flexibilidade.

Confira nossos tutoriais e práticas recomendadas para saber como o Cloud Run pode otimizar suas cargas de trabalho de IA/ML.

Comece a usar sem custos financeiros

Comece sua prova de conceito com US$ 300 de crédito sem custos financeiros

Desenvolva com nossos modelos e ferramentas de IA generativa mais recentes.
Use sem custo financeiro mais de 20 produtos conhecidos, incluindo o Compute Engine e as APIs de IA.
Sem cobranças automáticas, sem compromisso.

Confira ofertas de produtos sem custo financeiro

Aproveite mais de 20 produtos sem custo financeiro.

Acesse mais de 20 produtos sem custo financeiro voltados a casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.

Recursos de documentação

Encontre guias de início rápido, consulte referências de chaves e receba ajuda para problemas comuns.

Entenda o treinamento autoguiado, os casos de uso, as arquiteturas de referência e os exemplos de código sobre como usar e conectar serviços do Google Cloud .

Caso de uso

Um guia para inicializações a frio de IA no

Otimize a latência de inicialização a frio para inferência de LLM em contêineres no usando configurações de configuração sem servidor e ajuste do padrão de design de arquitetura.

Inicializações a frio Latência Otimização LLMs

Caso de uso

Como proteger agentes de IA com a autorização do MCP

Configure e aplique regras de autorização do Protocolo de Contexto de Modelo (MCP) para proteger a conectividade de ferramentas remotas para agentes de IA implantados no .

Segurança MCP Agentes

Caso de uso

O AI Studio permite a programação full-stack com , Firebase e , sem necessidade de cartão de crédito

Implante aplicativos full-stack no diretamente do modo de criação do Google AI Studio com suporte integrado do Firebase e de backup do .

AI Studio Firebase vibe coding

Caso de uso

Execute seus aplicativos de inferência de IA no com GPUs NVIDIA

Use GPUs NVIDIA L4 no para inferência de IA em tempo real, incluindo benefícios de inicialização a frio rápida e redução da escala a zero para modelos de linguagem grandes (LLMs).

GPUs LLMs

Caso de uso

: a maneira mais rápida de colocar seus aplicativos de IA em produção

Aprenda a usar o para aplicativos de IA prontos para produção. Este guia descreve casos de uso como divisão de tráfego para solicitações de teste A/B, padrões de RAG (geração aumentada por recuperação) e conectividade com repositórios de vetores.

Aplicativos de IA divisão de tráfego para testes A/B padrões de RAG armazenamentos de vetores conectividade com armazenamentos de vetores

Caso de uso

Implantação de IA facilitada: implante seu app no usando o AI Studio ou agentes de IA compatíveis com MCP

Implantação com um clique do Google AI Studio para e o servidor MCP (Protocolo de Contexto de Modelo) para ativar agentes de IA em IDEs ou SDKs de agentes e implantar apps.

Servidores MCP implantações

Caso de uso

Turbinando com a potência da GPU: uma nova era para cargas de trabalho de IA

Integre GPUs NVIDIA L4 com para veiculação de LLM econômica. Este guia enfatiza a redução da escala a zero e fornece etapas de implantação para modelos como o 2 com o Ollama.

LLMs GPU Ollama Otimização de custos

Caso de uso

Ainda está empacotando modelos de IA em contêineres? Em vez disso, faça o seguinte em

Desvincule arquivos de modelos grandes da imagem do contêiner usando . O desacoplamento melhora os tempos de build, simplifica as atualizações e cria uma arquitetura de veiculação mais escalonável.

Pacotes de modelos Práticas recomendadas Modelos grandes

Caso de uso

Empacote e implante seus modelos de machine learning em com o Cog

Use o framework Cog, otimizado para veiculação de ML, para simplificar o empacotamento e a implantação de contêineres no .

Cog Pacotes de modelos Implantação Tutorial

Caso de uso

Implantação e monitoramento de modelos de ML com : leve, escalonável e econômico

Use para inferência de ML leve e crie uma pilha de monitoramento econômica usando serviços nativos, como e .

Monitoramento MLOps Eficiência de custos Inferência

Documentação da orquestração de IA/ML no Cloud Run

Comece sua prova de conceito com US$ 300 de crédito sem custos financeiros

Aproveite mais de 20 produtos sem custo financeiro.

Executar soluções de IA

Inferência com GPUs

Resolver problemas

Vídeos relacionados