Priority Processing para clientes da API
O Priority processing oferece desempenho confiável e de alta velocidade, com a flexibilidade do modelo pay-as-you-go.
Ao escolher o Priority processing, você pode obter:
- Latência previsivelmente baixa: o Priority processing gera tokens mais rápido e em uma velocidade mais consistente do que o serviço Standard processing, mesmo em períodos de pico de demanda.
- Flexibilidade simples de usar: assim como o Standard processing, o Priority processing pode ser acessado de forma flexível, no modelo pay-as-you-go, sem necessidade de provisionamento antecipado.
| Preço por 1 milhão de tokens de entrada | Preço por 1 milhão de tokens de entrada (em cache) | Preço por 1 milhão de tokens de saída | SLA de tempo de atividade3 | SLA de latência3 | |
|---|---|---|---|---|---|
GPT-5.5 exclui janela de contexto1 | US$ 12,50 | US$ 1,250 | US$ 75,00 | 99,9% | 99% > 50 tokens por segundo2 |
GPT-5.4 mini exclui janela de contexto1 | US$ 1,50 | US$ 0,150 | US$ 9,00 | 99,9% | 99% > 100 tokens por segundo2 |
GPT-5.4 exclui janela de contexto1 | US$ 5,00 | US$ 0,500 | US$ 30,00 | 99,9% | 99% > 50 tokens por segundo2 |
GPT-5.2 exclui janela de contexto1 | US$ 3,50 | US$ 0,350 | US$ 28,00 | 99,9% | 99% > 50 tokens por segundo2 |
GPT-5.1 exclui janela de contexto1 | US$ 2,50 | US$ 0,250 | US$ 20,00 | 99,9% | 99% > 50 tokens por segundo2 |
GPT-5 exclui janela de contexto1 | US$ 2,50 | US$ 0,250 | US$ 20,00 | 99,9% | 99% > 50 tokens por segundo2 |
GPT-5 mini exclui janela de contexto1 | US$ 0,45 | US$ 0,045 | US$ 3,60 | 99,9% | 99% > 80 tokens por segundo2 |
GPT-5.1 codex exclui janela de contexto1 | US$ 2,50 | US$ 0,250 | US$ 20,00 | 99,9% | 99% > 50 tokens por segundo2 |
GPT-5 codex exclui janela de contexto1 | US$ 2,50 | US$ 0,250 | US$ 20,00 | 99,9% | 99% > 50 tokens por segundo2 |
GPT-4.1 exclui janela de contexto1 | US$ 3,50 | US$ 0,875 | US$ 14,00 | 99,9% | 99% > 80 tokens por segundo2 |
GPT-4.1 mini exclui janela de contexto1 | US$ 0,70 | US$ 0,175 | US$ 2,80 | 99,9% | 99% > 90 tokens por segundo2 |
GPT-4.1 nano exclui janela de contexto1 | US$ 0,20 | US$ 0,050 | US$ 0,80 | 99,9% | 99% > 100 tokens por segundo2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | US$ 4,25 | US$ 2,125 | US$ 17,00 | 99,9% | 99% > 80 tokens por segundo2 |
gpt-4o-2024-05-13 | US$ 8,75 | — | US$ 26,25 | 99,9% | 99% > 80 tokens por segundo2 |
GPT-4o mini | US$ 0,25 | US$ 0,125 | US$ 1,00 | 99,9% | 99% > 90 tokens por segundo2 |
o3 | US$ 3,50 | US$ 0,875 | US$ 14,00 | 99,9% | 99% > 80 tokens por segundo2 |
o4-mini | US$ 2,00 | US$ 0,500 | US$ 8,00 | 99,9% | 99% > 90 tokens por segundo2 |
Como funciona
Os clientes podem direcionar o tráfego para o Priority processing por solicitação, usando o parâmetro existente service_tier, com a opção service_tier = "priority".
Os tokens atendidos pelo Priority processing serão cobrados por token, com preço superior às tarifas do Standard processing.
Além de configurar no nível de solicitação, você também pode definir um projeto como Priority em Project settings → Default Service Tier: Priority. Você ainda pode substituir essa configuração em cada solicitação.
Limitações
- Os limites de taxa do Priority processing são compartilhados com outros níveis de serviço.
- Em casos raros, aumentos rápidos nos seus Tokens per Minute do Priority processing podem fazer com que você atinja os limites de rampa. Se você exceder o limite de rampa, o tráfego adicional poderá ser enviado para o Standard processing.