Pular para o conteúdo principal
OpenAI

Priority Processing para clientes da API

O Priority processing oferece desempenho confiável e de alta velocidade, com a flexibilidade do modelo pay-as-you-go.

Ao escolher o Priority processing, você pode obter:

  • Latência previsivelmente baixa: o Priority processing gera tokens mais rápido e em uma velocidade mais consistente do que o serviço Standard processing, mesmo em períodos de pico de demanda.
  • Flexibilidade simples de usar: assim como o Standard processing, o Priority processing pode ser acessado de forma flexível, no modelo pay-as-you-go, sem necessidade de provisionamento antecipado.
Preço por 1 milhão de tokens de entradaPreço por 1 milhão de tokens de entrada (em cache)Preço por 1 milhão de tokens de saídaSLA de tempo de atividade3SLA de latência3
GPT-5.5
exclui janela de contexto1
US$ 12,50US$ 1,250US$ 75,0099,9%99% > 50 tokens por segundo2
GPT-5.4 mini
exclui janela de contexto1
US$ 1,50US$ 0,150US$ 9,0099,9%99% > 100 tokens por segundo2
GPT-5.4
exclui janela de contexto1
US$ 5,00US$ 0,500US$ 30,0099,9%99% > 50 tokens por segundo2
GPT-5.2
exclui janela de contexto1
US$ 3,50US$ 0,350US$ 28,0099,9%99% > 50 tokens por segundo2
GPT-5.1
exclui janela de contexto1
US$ 2,50US$ 0,250US$ 20,0099,9%99% > 50 tokens por segundo2
GPT-5
exclui janela de contexto1
US$ 2,50US$ 0,250US$ 20,0099,9%99% > 50 tokens por segundo2
GPT-5 mini
exclui janela de contexto1
US$ 0,45US$ 0,045US$ 3,6099,9%99% > 80 tokens por segundo2
GPT-5.1 codex
exclui janela de contexto1
US$ 2,50US$ 0,250US$ 20,0099,9%99% > 50 tokens por segundo2
GPT-5 codex
exclui janela de contexto1
US$ 2,50US$ 0,250US$ 20,0099,9%99% > 50 tokens por segundo2
GPT-4.1
exclui janela de contexto1
US$ 3,50US$ 0,875US$ 14,0099,9%99% > 80 tokens por segundo2
GPT-4.1 mini
exclui janela de contexto1
US$ 0,70US$ 0,175US$ 2,8099,9%99% > 90 tokens por segundo2
GPT-4.1 nano
exclui janela de contexto1
US$ 0,20US$ 0,050US$ 0,8099,9%99% > 100 tokens por segundo2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
US$ 4,25US$ 2,125US$ 17,0099,9%99% > 80 tokens por segundo2
gpt-4o-2024-05-13
US$ 8,75US$ 26,2599,9%99% > 80 tokens por segundo2
GPT-4o mini
US$ 0,25US$ 0,125US$ 1,0099,9%99% > 90 tokens por segundo2
o3
US$ 3,50US$ 0,875US$ 14,0099,9%99% > 80 tokens por segundo2
o4-mini
US$ 2,00US$ 0,500US$ 8,0099,9%99% > 90 tokens por segundo2
1Solicitações estimadas em >128 mil tokens de prompt
2Calculado como o 50º percentil da latência das requisições a cada 5 minutos. Para clientes com contratos Enterprise que especificam SLAs de latência calculados como o 50º percentil da latência das requisições a cada 1 minuto, os SLAs anteriores continuam em vigor.
3Apenas para clientes do plano Enterprise

Como funciona

Os clientes podem direcionar o tráfego para o Priority processing por solicitação, usando o parâmetro existente service_tier, com a opção service_tier = "priority".

Os tokens atendidos pelo Priority processing serão cobrados por token, com preço superior às tarifas do Standard processing. 

Além de configurar no nível de solicitação, você também pode definir um projeto como Priority em Project settings → Default Service Tier: Priority. Você ainda pode substituir essa configuração em cada solicitação.

Limitações

  • Os limites de taxa do Priority processing são compartilhados com outros níveis de serviço. 
  • Em casos raros, aumentos rápidos nos seus Tokens per Minute do Priority processing podem fazer com que você atinja os limites de rampa. Se você exceder o limite de rampa, o tráfego adicional poderá ser enviado para o Standard processing.

Preços

Modelos

Limites de taxa

Confiabilidade

Políticas