Elaborazione Prioritaria per i clienti API
L'elaborazione Prioritaria offre prestazioni affidabili e ad alta velocità con la flessibilità di pagare a consumo.
Scegliendo l'elaborazione Prioritaria, puoi sbloccare:
- Latenza prevedibilmente bassa: il servizio di elaborazione Prioritaria genera token più rapidamente e con maggiore costanza rispetto al servizio Standard, anche durante i picchi di domanda.
- Flessibilità facile da usare: come l’elaborazione Standard, anche l’elaborazione Prioritaria può essere utilizzata in modo flessibile e a consumo, senza richiedere provisioning anticipato.
| Prezzo per 1M token di input | Prezzo per 1M token di input (memorizzati nella cache) | Prezzo per 1M token di output | SLA di uptime3 | SLA di latenza3 | |
|---|---|---|---|---|---|
GPT-5.5 esclude il contesto lungo1 | 12,50 USD | 1,250 USD | 75,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5.4 mini esclude il contesto lungo1 | 1,50 USD | 0,150 USD | 9,00 USD | 99,9% | 99% > 100 token al secondo2 |
GPT-5.4 esclude il contesto lungo1 | 5,00 USD | 0,500 USD | 30,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5.2 esclude il contesto lungo1 | 3,50 USD | 0,350 USD | 28,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5.1 esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 mini esclude il contesto lungo1 | 0,45 USD | 0,045 USD | 3,60 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-5.1 codex esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-5 codex esclude il contesto lungo1 | 2,50 USD | 0,250 USD | 20,00 USD | 99,9% | 99% > 50 token al secondo2 |
GPT-4.1 esclude il contesto lungo1 | 3,50 USD | 0,875 USD | 14,00 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-4.1 mini esclude il contesto lungo1 | 0,70 USD | 0,175 USD | 2,80 USD | 99,9% | 99% > 90 token al secondo2 |
GPT-4.1 nano esclude il contesto lungo1 | 0,20 USD | 0,050 USD | 0,80 USD | 99,9% | 99% > 100 token al secondo2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 USD | 2,125 USD | 17,00 USD | 99,9% | 99% > 80 token al secondo2 |
gpt-4o-2024-05-13 | 8,75 USD | — | 26,25 USD | 99,9% | 99% > 80 token al secondo2 |
GPT-4o mini | 0,25 USD | 0,125 USD | 1,00 USD | 99,9% | 99% > 90 token al secondo2 |
o3 | 3,50 USD | 0,875 USD | 14,00 USD | 99,9% | 99% > 80 token al secondo2 |
o4-mini | 2,00 USD | 0,500 USD | 8,00 USD | 99,9% | 99% > 90 token al secondo2 |
Come funziona
I clienti possono indirizzare il traffico verso l’elaborazione Prioritaria per singola richiesta utilizzando il parametro esistente service_tier, con l’opzione service_tier = “priority”.
I token gestiti dall’elaborazione Prioritaria verranno fatturati per token, con un prezzo premium rispetto alle tariffe dell’elaborazione Standard.
Oltre a essere configurato a livello di richiesta, puoi anche impostare un progetto su Priorità nelle impostazioni del progetto → Livello di servizio predefinito: Priorità. Puoi comunque sovrascrivere per singola richiesta.
Limiti
- I limiti di velocità di elaborazione Prioritaria sono condivisi con altri livelli di servizio.
- In rari casi, un rapido aumento dei token per minuto di elaborazione Prioritaria può portare a superare i limiti di velocità di rampa. Se superi il limite della velocità di rampa, il traffico aggiuntivo potrebbe essere inviato all'elaborazione Standard.