Documentação da orquestração de IA/ML no Cloud Run
O Cloud Run é uma plataforma totalmente gerenciada que permite executar aplicativos conteinerizados, incluindo cargas de trabalho de IA/ML, diretamente na infraestrutura escalonável do Google. Ele lida com a infraestrutura para você, assim você pode se concentrar em escrever o código em vez de gastar tempo operando, configurando e escalonando seus recursos do Cloud Run. Os recursos do Cloud Run oferecem o seguinte:
- Aceleradores de hardware: acesse e gerencie GPUs para inferência em grande escala.
- Suporte a frameworks: integre-se aos frameworks de exibição de modelos que você já conhece e confia, como Hugging Face, TGI e vLLM.
- Plataforma gerenciada: aproveite todos os benefícios de uma plataforma gerenciada para automatizar, escalonar e melhorar a segurança de todo o ciclo de vida de IA/ML, mantendo a flexibilidade.
Confira nossos tutoriais e práticas recomendadas para saber como o Cloud Run pode otimizar suas cargas de trabalho de IA/ML.
Comece sua prova de conceito com US$ 300 de crédito sem custos financeiros
- Desenvolva com nossos modelos e ferramentas de IA generativa mais recentes.
- Use sem custo financeiro mais de 20 produtos conhecidos, incluindo o Compute Engine e as APIs de IA.
- Sem cobranças automáticas, sem compromisso.
Aproveite mais de 20 produtos sem custo financeiro.
Acesse mais de 20 produtos sem custo financeiro voltados a casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.
Recursos de documentação
Executar soluções de IA
- Conceito
- Conceito
- Instruções
- Instruções
- Instruções
- Tutorial
- Conceito
- Conceito
- Tutorial
- Tutorial
Inferência com GPUs
- Tutorial
- Instruções
- Tutorial
- Prática recomendada
- Tutorial
- Tutorial
- Prática recomendada
- Prática recomendada
Resolver problemas
- Conceito
- Instruções
- Instruções
- Instruções
Recursos relacionados
Um guia para inicializações a frio de IA no
Otimize a latência de inicialização a frio para inferência de LLM em contêineres no usando configurações de configuração sem servidor e ajuste do padrão de design de arquitetura.
Como proteger agentes de IA com a autorização do MCP
Configure e aplique regras de autorização do Protocolo de Contexto de Modelo (MCP) para proteger a conectividade de ferramentas remotas para agentes de IA implantados no .
O AI Studio permite a programação full-stack com , Firebase e , sem necessidade de cartão de crédito
Implante aplicativos full-stack no diretamente do modo de criação do Google AI Studio com suporte integrado do Firebase e de backup do .
Execute seus aplicativos de inferência de IA no com GPUs NVIDIA
Use GPUs NVIDIA L4 no para inferência de IA em tempo real, incluindo benefícios de inicialização a frio rápida e redução da escala a zero para modelos de linguagem grandes (LLMs).
: a maneira mais rápida de colocar seus aplicativos de IA em produção
Aprenda a usar o para aplicativos de IA prontos para produção. Este guia descreve casos de uso como divisão de tráfego para solicitações de teste A/B, padrões de RAG (geração aumentada por recuperação) e conectividade com repositórios de vetores.
Implantação de IA facilitada: implante seu app no usando o AI Studio ou agentes de IA compatíveis com MCP
Implantação com um clique do Google AI Studio para e o servidor MCP (Protocolo de Contexto de Modelo) para ativar agentes de IA em IDEs ou SDKs de agentes e implantar apps.
Turbinando com a potência da GPU: uma nova era para cargas de trabalho de IA
Integre GPUs NVIDIA L4 com para veiculação de LLM econômica. Este guia enfatiza a redução da escala a zero e fornece etapas de implantação para modelos como o 2 com o Ollama.
Ainda está empacotando modelos de IA em contêineres? Em vez disso, faça o seguinte em
Desvincule arquivos de modelos grandes da imagem do contêiner usando . O desacoplamento melhora os tempos de build, simplifica as atualizações e cria uma arquitetura de veiculação mais escalonável.
Empacote e implante seus modelos de machine learning em com o Cog
Use o framework Cog, otimizado para veiculação de ML, para simplificar o empacotamento e a implantação de contêineres no .
Implantação e monitoramento de modelos de ML com : leve, escalonável e econômico
Use para inferência de ML leve e crie uma pilha de monitoramento econômica usando serviços nativos, como e .