Priority Processing para clientes da API

O Priority processing oferece desempenho confiável e de alta velocidade, com a flexibilidade do modelo pay-as-you-go.

Ao escolher o Priority processing, você pode obter:

Latência previsivelmente baixa: o Priority processing gera tokens mais rápido e em uma velocidade mais consistente do que o serviço Standard processing, mesmo em períodos de pico de demanda.
Flexibilidade simples de usar: assim como o Standard processing, o Priority processing pode ser acessado de forma flexível, no modelo pay-as-you-go, sem necessidade de provisionamento antecipado.

	Preço por 1 milhão de tokens de entrada	Preço por 1 milhão de tokens de entrada (em cache)	Preço por 1 milhão de tokens de saída	SLA de tempo de atividade³	SLA de latência³
GPT-5.5 exclui janela de contexto¹	US$ 12,50	US$ 1,250	US$ 75,00	99,9%	99% > 50 tokens por segundo²
GPT-5.4 mini exclui janela de contexto¹	US$ 1,50	US$ 0,150	US$ 9,00	99,9%	99% > 100 tokens por segundo²
GPT-5.4 exclui janela de contexto¹	US$ 5,00	US$ 0,500	US$ 30,00	99,9%	99% > 50 tokens por segundo²
GPT-5.2 exclui janela de contexto¹	US$ 3,50	US$ 0,350	US$ 28,00	99,9%	99% > 50 tokens por segundo²
GPT-5.1 exclui janela de contexto¹	US$ 2,50	US$ 0,250	US$ 20,00	99,9%	99% > 50 tokens por segundo²
GPT-5 exclui janela de contexto¹	US$ 2,50	US$ 0,250	US$ 20,00	99,9%	99% > 50 tokens por segundo²
GPT-5 mini exclui janela de contexto¹	US$ 0,45	US$ 0,045	US$ 3,60	99,9%	99% > 80 tokens por segundo²
GPT-5.1 codex exclui janela de contexto¹	US$ 2,50	US$ 0,250	US$ 20,00	99,9%	99% > 50 tokens por segundo²
GPT-5 codex exclui janela de contexto¹	US$ 2,50	US$ 0,250	US$ 20,00	99,9%	99% > 50 tokens por segundo²
GPT-4.1 exclui janela de contexto¹	US$ 3,50	US$ 0,875	US$ 14,00	99,9%	99% > 80 tokens por segundo²
GPT-4.1 mini exclui janela de contexto¹	US$ 0,70	US$ 0,175	US$ 2,80	99,9%	99% > 90 tokens por segundo²
GPT-4.1 nano exclui janela de contexto¹	US$ 0,20	US$ 0,050	US$ 0,80	99,9%	99% > 100 tokens por segundo²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	US$ 4,25	US$ 2,125	US$ 17,00	99,9%	99% > 80 tokens por segundo²
gpt-4o-2024-05-13	US$ 8,75	—	US$ 26,25	99,9%	99% > 80 tokens por segundo²
GPT-4o mini	US$ 0,25	US$ 0,125	US$ 1,00	99,9%	99% > 90 tokens por segundo²
o3	US$ 3,50	US$ 0,875	US$ 14,00	99,9%	99% > 80 tokens por segundo²
o4-mini	US$ 2,00	US$ 0,500	US$ 8,00	99,9%	99% > 90 tokens por segundo²

1Solicitações estimadas em >128 mil tokens de prompt

2Calculado como o 50º percentil da latência das requisições a cada 5 minutos. Para clientes com contratos Enterprise que especificam SLAs de latência calculados como o 50º percentil da latência das requisições a cada 1 minuto, os SLAs anteriores continuam em vigor.

3Apenas para clientes do plano Enterprise

Como funciona

Os clientes podem direcionar o tráfego para o Priority processing por solicitação, usando o parâmetro existente service_tier, com a opção service_tier = "priority".

Os tokens atendidos pelo Priority processing serão cobrados por token, com preço superior às tarifas do Standard processing.

Além de configurar no nível de solicitação, você também pode definir um projeto como Priority em Project settings → Default Service Tier: Priority. Você ainda pode substituir essa configuração em cada solicitação.

Limitações

Os limites de taxa do Priority processing são compartilhados com outros níveis de serviço.
Em casos raros, aumentos rápidos nos seus Tokens per Minute do Priority processing podem fazer com que você atinja os limites de rampa. Se você exceder o limite de rampa, o tráfego adicional poderá ser enviado para o Standard processing.

Preços

Modelos

Limites de taxa

O Priority processing tem limites de rampa para garantir desempenho consistentemente alto para todos os clientes, mantendo preços flexíveis e sob demanda. Se (a) o desempenho do Priority processing estiver degradado E (b) o tráfego de um cliente estiver crescendo rápido demais, alguns pedidos Priority poderão ser rebaixados para o Standard processing.

O limite atual de rampa do Priority processing é definido como processar pelo menos 1M TPM e aumentar o tráfego em mais de 50% de tokens por minuto em menos de 15 minutos.

As solicitações processadas pelo nível de serviço Standard serão cobradas nas tarifas padrão e não são elegíveis para os Service Level Objectives do Priority processing.

As solicitações processadas pelo nível de serviço Standard incluirão service_tier="Default" na resposta.

Boas práticas para se manter dentro do seu limite de rampa

Aumente o tráfego gradualmente ao trocar de modelo. Por exemplo, se o seu aplicativo estiver migrando de um snapshot anterior para um novo, use uma feature flag para transferir o tráfego ao longo de algumas horas, em vez de tudo de uma vez.
Evite executar grandes jobs de processamento de dados ou jobs assíncronos no Priority processing. Esses jobs podem aumentar o tráfego muito rápido e, muitas vezes, não precisam do desempenho aprimorado do Priority processing.
Se você atingir limites de rampa com frequência, considere adquirir capacidade de Scale Tier em vez de — ou além de — usar apenas o Priority processing.

Confiabilidade

Políticas

O limite atual de rampa do Priority processing é definido como processar pelo menos 1M TPM e aumentar o tráfego em mais de 50% de tokens por minuto em menos de 15 minutos.

As solicitações processadas pelo nível de serviço Standard serão cobradas nas tarifas padrão e não são elegíveis para os Service Level Objectives do Priority processing.

As solicitações processadas pelo nível de serviço Standard incluirão service_tier="Default" na resposta.

Boas práticas para se manter dentro do seu limite de rampa

Aumente o tráfego gradualmente ao trocar de modelo. Por exemplo, se o seu aplicativo estiver migrando de um snapshot anterior para um novo, use uma feature flag para transferir o tráfego ao longo de algumas horas, em vez de tudo de uma vez.
Evite executar grandes jobs de processamento de dados ou jobs assíncronos no Priority processing. Esses jobs podem aumentar o tráfego muito rápido e, muitas vezes, não precisam do desempenho aprimorado do Priority processing.
Se você atingir limites de rampa com frequência, considere adquirir capacidade de Scale Tier em vez de — ou além de — usar apenas o Priority processing.

Priority Processing para clientes da API

Como funciona

Limitações

Preços

(Para clientes Enterprise) Como isso interage com o Scale Tier?

(Para clientes Enterprise) Posso enviar automaticamente o tráfego excedente do Scale Tier para o Priority processing?

(Para clientes Enterprise) Meu compromisso anual está vinculado a um modo específico de processamento?

Eu ainda recebo desconto em tokens de entrada em cache (Cached Inputs)?

Como vejo o uso e o gasto do meu Priority processing?

Modelos

O Priority processing está disponível para long context, modelos fine-tuned, embeddings etc.?

Como outras modalidades funcionam com o Priority processing?

Modelos futuros serão compatíveis?