Documentação da orquestração de IA/ML no Cloud Run

O Cloud Run é uma plataforma totalmente gerenciada que permite executar aplicativos conteinerizados, incluindo cargas de trabalho de IA/ML, diretamente na infraestrutura escalonável do Google. Ele lida com a infraestrutura para você, assim você pode se concentrar em escrever o código em vez de gastar tempo operando, configurando e escalonando seus recursos do Cloud Run. Os recursos do Cloud Run oferecem o seguinte:

  • Aceleradores de hardware: acesse e gerencie GPUs para inferência em grande escala.
  • Suporte a frameworks: integre-se aos frameworks de exibição de modelos que você já conhece e confia, como Hugging Face, TGI e vLLM.
  • Plataforma gerenciada: aproveite todos os benefícios de uma plataforma gerenciada para automatizar, escalonar e melhorar a segurança de todo o ciclo de vida de IA/ML, mantendo a flexibilidade.

Confira nossos tutoriais e práticas recomendadas para saber como o Cloud Run pode otimizar suas cargas de trabalho de IA/ML.

  • Desenvolva com nossos modelos e ferramentas de IA generativa mais recentes.
  • Use sem custo financeiro mais de 20 produtos conhecidos, incluindo o Compute Engine e as APIs de IA.
  • Sem cobranças automáticas, sem compromisso.

Aproveite mais de 20 produtos sem custo financeiro.

Acesse mais de 20 produtos sem custo financeiro voltados a casos de uso comuns, incluindo APIs de IA, VMs, data warehouses e muito mais.

Entenda o treinamento autoguiado, os casos de uso, as arquiteturas de referência e os exemplos de código sobre como usar e conectar serviços do Google Cloud .
Caso de uso
Casos de uso

Otimize a latência de inicialização a frio para inferência de LLM em contêineres no usando configurações de configuração sem servidor e ajuste do padrão de design de arquitetura.

Inicializações a frio Latência Otimização LLMs

Caso de uso
Casos de uso

Configure e aplique regras de autorização do Protocolo de Contexto de Modelo (MCP) para proteger a conectividade de ferramentas remotas para agentes de IA implantados no .

Segurança MCP Agentes

Caso de uso
Casos de uso

Implante aplicativos full-stack no diretamente do modo de criação do Google AI Studio com suporte integrado do Firebase e de backup do .

AI Studio Firebase vibe coding

Caso de uso
Casos de uso

Use GPUs NVIDIA L4 no para inferência de IA em tempo real, incluindo benefícios de inicialização a frio rápida e redução da escala a zero para modelos de linguagem grandes (LLMs).

GPUs LLMs

Caso de uso
Casos de uso

Aprenda a usar o para aplicativos de IA prontos para produção. Este guia descreve casos de uso como divisão de tráfego para solicitações de teste A/B, padrões de RAG (geração aumentada por recuperação) e conectividade com repositórios de vetores.

Aplicativos de IA divisão de tráfego para testes A/B padrões de RAG armazenamentos de vetores conectividade com armazenamentos de vetores

Caso de uso
Casos de uso

Implantação com um clique do Google AI Studio para e o servidor MCP (Protocolo de Contexto de Modelo) para ativar agentes de IA em IDEs ou SDKs de agentes e implantar apps.

Servidores MCP implantações

Caso de uso
Casos de uso

Integre GPUs NVIDIA L4 com para veiculação de LLM econômica. Este guia enfatiza a redução da escala a zero e fornece etapas de implantação para modelos como o 2 com o Ollama.

LLMs GPU Ollama Otimização de custos

Caso de uso
Casos de uso

Desvincule arquivos de modelos grandes da imagem do contêiner usando . O desacoplamento melhora os tempos de build, simplifica as atualizações e cria uma arquitetura de veiculação mais escalonável.

Pacotes de modelos Práticas recomendadas Modelos grandes

Caso de uso
Casos de uso

Use o framework Cog, otimizado para veiculação de ML, para simplificar o empacotamento e a implantação de contêineres no .

Cog Pacotes de modelos Implantação Tutorial

Caso de uso
Casos de uso

Use para inferência de ML leve e crie uma pilha de monitoramento econômica usando serviços nativos, como e .

Monitoramento MLOps Eficiência de custos Inferência

Vídeos relacionados