Vai al contenuto principale
OpenAI

Elaborazione Prioritaria per i clienti API

L'elaborazione Prioritaria offre prestazioni affidabili e ad alta velocità con la flessibilità di pagare a consumo.

Scegliendo l'elaborazione Prioritaria, puoi sbloccare:

  • Latenza prevedibilmente bassa: il servizio di elaborazione Prioritaria genera token più rapidamente e con maggiore costanza rispetto al servizio Standard, anche durante i picchi di domanda.
  • Flessibilità facile da usare: come l’elaborazione Standard, anche l’elaborazione Prioritaria può essere utilizzata in modo flessibile e a consumo, senza richiedere provisioning anticipato.
Prezzo per 1M token di inputPrezzo per 1M token di input (memorizzati nella cache)Prezzo per 1M token di outputSLA di uptime3SLA di latenza3
GPT-5.5
esclude il contesto lungo1
12,50 USD1,250 USD75,00 USD99,9%99% > 50 token al secondo2
GPT-5.4 mini
esclude il contesto lungo1
1,50 USD0,150 USD9,00 USD99,9%99% > 100 token al secondo2
GPT-5.4
esclude il contesto lungo1
5,00 USD0,500 USD30,00 USD99,9%99% > 50 token al secondo2
GPT-5.2
esclude il contesto lungo1
3,50 USD0,350 USD28,00 USD99,9%99% > 50 token al secondo2
GPT-5.1
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5 mini
esclude il contesto lungo1
0,45 USD0,045 USD3,60 USD99,9%99% > 80 token al secondo2
GPT-5.1 codex
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-5 codex
esclude il contesto lungo1
2,50 USD0,250 USD20,00 USD99,9%99% > 50 token al secondo2
GPT-4.1
esclude il contesto lungo1
3,50 USD0,875 USD14,00 USD99,9%99% > 80 token al secondo2
GPT-4.1 mini
esclude il contesto lungo1
0,70 USD0,175 USD2,80 USD99,9%99% > 90 token al secondo2
GPT-4.1 nano
esclude il contesto lungo1
0,20 USD0,050 USD0,80 USD99,9%99% > 100 token al secondo2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 USD2,125 USD17,00 USD99,9%99% > 80 token al secondo2
gpt-4o-2024-05-13
8,75 USD26,25 USD99,9%99% > 80 token al secondo2
GPT-4o mini
0,25 USD0,125 USD1,00 USD99,9%99% > 90 token al secondo2
o3
3,50 USD0,875 USD14,00 USD99,9%99% > 80 token al secondo2
o4-mini
2,00 USD0,500 USD8,00 USD99,9%99% > 90 token al secondo2
1Richieste stimate a >128.000 token di prompt
2Calcolata come latenza della richiesta p50 su base 5 minuti. Per i clienti con contratti aziendali che prevedono SLA di latenza calcolati come latenza della richiesta p50 su base al minuto, anche gli SLA precedenti sono ancora applicabili.
3Questa opzione è disponibile solo per i clienti Enterprise

Come funziona

I clienti possono indirizzare il traffico verso l’elaborazione Prioritaria per singola richiesta utilizzando il parametro esistente service_tier, con l’opzione service_tier = “priority”.

I token gestiti dall’elaborazione Prioritaria verranno fatturati per token, con un prezzo premium rispetto alle tariffe dell’elaborazione Standard. 

Oltre a essere configurato a livello di richiesta, puoi anche impostare un progetto su Priorità nelle impostazioni del progetto → Livello di servizio predefinito: Priorità. Puoi comunque sovrascrivere per singola richiesta.

Limiti

  • I limiti di velocità di elaborazione Prioritaria sono condivisi con altri livelli di servizio. 
  • In rari casi, un rapido aumento dei token per minuto di elaborazione Prioritaria può portare a superare i limiti di velocità di rampa. Se superi il limite della velocità di rampa, il traffico aggiuntivo potrebbe essere inviato all'elaborazione Standard.

Tariffe

Modelli

Limiti di utilizzo

Affidabilità

Politiche