Vai al contenuto principale
OpenAI

Scale Tier per i clienti API

Questa offerta è disponibile per i clienti Enterprise. Per saperne di più, contatta il Team vendite⁠. Per accedere agli stessi vantaggi premium in termini di latenza e affidabilità con la flessibilità del pagamento a consumo, consulta Elaborazione prioritaria.

Con Scale Tier puoi acquistare in anticipo un determinato numero di token di input e di output API al minuto (noti come “unità di token”) per accedere a una specifica istantanea del modello. Ogni unità di token viene acquistata per un minimo di 30 giorni. Altri modelli possono essere aggiunti in base all'interesse dei clienti.

Ecco i vantaggi di scegliere Scale Tier:

  • Latenza prevedibile: Scale Tier è progettato per generare token più velocemente e a un ritmo più stabile rispetto al servizio a consumo (PAYG), anche durante i picchi di domanda.
  • Scalabilità senza limiti: qualsiasi acquisto di quota con Scale Tier viene automaticamente aggiunto ai tuoi limiti tariffari, consentendoti di scalare in tutta tranquillità. 
  • Maggiore affidabilità: il traffico Scale Tier offre uno SLA di uptime del 99,9% e priorità di calcolo.
Pacchetto di inputPacchetto di outputSLA di uptimeSLA di latenza
GPT-5.550.000 TPM
750,00 USD per unità/giorno
N.D.399,9%99% > 100 token al secondo2
GPT-5.4 mini50.000 TPM
100,00 USD per unità/giorno
N.D.399,9%99% > 100 token al secondo2
GPT-5.4
esclude il contesto lungo4
50.000 TPM
300,00 USD per unità/giorno
N.D.399,9%99% > 50 token al secondo2
GPT-5.225.000 TPM
105,00 USD per unità/giorno
2500 TPM
84,00 USD per unità/giorno
99,9%99% > 50 token al secondo2
GPT-5.125.000 TPM
75,00 USD per unità/giorno
2500 TPM
60,00 USD per unità/giorno
99,9%99% > 50 token al secondo2
GPT-525.000 TPM
75,00 USD per unità/giorno
2500 TPM
60,00 USD per unità/giorno
99,9%99% > 50 token al secondo2
GPT-5 mini500.000 TPM
275,00 USD per unità/giorno
50.000 TPM
220,00 USD per unità/giorno
99,9%99% > 80 token al secondo2
GPT-4.1
esclude la memoria estesa1
30.000 TPM
110,00 USD per unità/giorno
2.500 TPM
36,00 USD per unità/giorno
99,9%99% > 80 token al secondo2
GPT-4.1 mini
esclude la memoria estesa1
500.000 TPM
450,00 USD per unità/giorno
50.000 TPM
175,00 USD per unità/giorno
99,9%99% > 90 token al secondo2
GPT-4.1 nano
esclude la memoria estesa1
500.000 TPM
110,00 USD per unità/giorno
50.000 TPM
40,00 USD per unità/giorno
99,9%99% > 100 token al secondo2
GPT-4.1 fine tuning30.000 TPM
165,00 USD per unità/giorno
2.500 TPM
36,00 USD per unità/giorno
99,9%99% > 80 token al secondo2
GPT-4.1 mini fine tuning500.000 TPM
900,00 USD per unità/giorno
50.000 TPM
175,00 USD per unità/giorno
99,9%99% > 90 token al secondo2
o325.000 TPM
75,00 USD per unità/giorno
5000 TPM
60,00 USD per unità/giorno
99,9%99% > 80 token al secondo2
o4-mini30.000 TPM
50,00 USD per unità/giorno
5000 TPM
32,50 USD per unità/giorno
99,9%99% > 90 token al secondo2
GPT-4o30.000 TPM
124,59 USD per unità/giorno
2.500 TPM
39,34 USD per unità/giorno
99,9%99% > 80 token al secondo2
GPT-4o mini500.000 TPM
114,75 USD per unità/giorno
50.000 TPM
49,18 USD per unità/giorno
99,9%99% > 90 token al secondo2
GPT-4o mini fine tuning500.000 TPM
229,50 USD per unità/giorno
50.000 TPM
98,36 USD per unità/giorno
99,9%99% > 90 token al secondo2
o15000 TPM
163,93 USD per unità/giorno
1000 TPM
131,15 USD per unità/giorno
99,9%99% > 80 token al secondo2
o3-mini30.000 TPM
78,69 USD per unità/giorno
5000 TPM
52,46 USD per unità/giorno
99,9%99% > 90 token al secondo2
1Richieste stimate a >128.000 token di prompt
2Calcolata come latenza della richiesta p50 su base 5 minuti. Per i clienti con contratti aziendali che prevedono SLA di latenza calcolati come latenza della richiesta p50 su base al minuto, anche gli SLA precedenti sono ancora applicabili.
3Con GPT-5.4, Scale Tier è acquistabile come bundle di token di input e di output combinati al minuto. L'utilizzo di token di input, token di input memorizzati nella cache e token di output viene conteggiato a tariffe diverse rispetto a questo bundle combinato. Consulta qui di seguito la sezione Come funziona.
4Contesto lungo è>272K

Come funziona

Con Scale Tier è possibile acquistare unità di token di input e di output. Ad esempio, con GPT‑4.1 ogni unità di input costa 110 USD al giorno e dà diritto a 30.000 token di input al minuto. Ogni unità di output costa 36 USD al giorno e dà diritto a 2.500 token di output al minuto. Ogni unità di token viene acquistata per un minimo di 30 giorni.

Ulteriori informazioni su come Scale Tier interagisce con Prompt Caching sono disponibili nella sezione FAQ qui sotto.

Con GPT‑5.4 acquisti token di input e di output combinati al minuto. Questo offre maggiore flessibilità ed elimina la necessità di prevedere il rapporto tra token di input e di output. Quando si utilizza Scale Tier, conteggiamo i token rispetto ai token combinati come segue:

  • I token di input contano come 1
  • I token di input memorizzati nella cache seguono la cache per modello, come indicato di seguito nella sezione FAQ
  • Conteggio dei token di output in base al rapporto di prezzo tra i token di output e quelli di input per il modello PayG. Ad esempio, con GPT‑5.4 un token di output equivale a 6.
Token al minutoTPMPagamento per i token utilizzati19 tok/s99,5%Pagamento a consumoLatenza mediaUptimeLivelloInputOutputPrimaPagamento anticipato mensile19 tok/s25 tok/s99,5%99,9%Pagamento a consumoScalabilitàLatenza mediaUptimeLivelloInput3 unitàOutput2 unitàDopo

Tariffe

Unità di token e limiti tariffari

Modelli

Affidabilità

Politiche