Scale Tier per i clienti API

Questa offerta è disponibile per i clienti Enterprise. Per saperne di più, contatta il Team vendite⁠. Per accedere agli stessi vantaggi premium in termini di latenza e affidabilità con la flessibilità del pagamento a consumo, consulta Elaborazione prioritaria⁠.

Con Scale Tier puoi acquistare in anticipo un determinato numero di token di input e di output API al minuto (noti come “unità di token”) per accedere a una specifica istantanea del modello. Ogni unità di token viene acquistata per un minimo di 30 giorni. Altri modelli possono essere aggiunti in base all'interesse dei clienti.

Ecco i vantaggi di scegliere Scale Tier:

Latenza prevedibile: Scale Tier è progettato per generare token più velocemente e a un ritmo più stabile rispetto al servizio a consumo (PAYG), anche durante i picchi di domanda.
Scalabilità senza limiti: qualsiasi acquisto di quota con Scale Tier viene automaticamente aggiunto ai tuoi limiti tariffari, consentendoti di scalare in tutta tranquillità.
Maggiore affidabilità: il traffico Scale Tier offre uno SLA di uptime del 99,9% e priorità di calcolo.

	Pacchetto di input	Pacchetto di output	SLA di uptime	SLA di latenza
GPT-5.5	50.000 TPM 750,00 USD per unità/giorno	N.D.³	99,9%	99% > 100 token al secondo²
GPT-5.4 mini	50.000 TPM 100,00 USD per unità/giorno	N.D.³	99,9%	99% > 100 token al secondo²
GPT-5.4 esclude il contesto lungo⁴	50.000 TPM 300,00 USD per unità/giorno	N.D.³	99,9%	99% > 50 token al secondo²
GPT-5.2	25.000 TPM 105,00 USD per unità/giorno	2500 TPM 84,00 USD per unità/giorno	99,9%	99% > 50 token al secondo²
GPT-5.1	25.000 TPM 75,00 USD per unità/giorno	2500 TPM 60,00 USD per unità/giorno	99,9%	99% > 50 token al secondo²
GPT-5	25.000 TPM 75,00 USD per unità/giorno	2500 TPM 60,00 USD per unità/giorno	99,9%	99% > 50 token al secondo²
GPT-5 mini	500.000 TPM 275,00 USD per unità/giorno	50.000 TPM 220,00 USD per unità/giorno	99,9%	99% > 80 token al secondo²
GPT-4.1 esclude la memoria estesa¹	30.000 TPM 110,00 USD per unità/giorno	2.500 TPM 36,00 USD per unità/giorno	99,9%	99% > 80 token al secondo²
GPT-4.1 mini esclude la memoria estesa¹	500.000 TPM 450,00 USD per unità/giorno	50.000 TPM 175,00 USD per unità/giorno	99,9%	99% > 90 token al secondo²
GPT-4.1 nano esclude la memoria estesa¹	500.000 TPM 110,00 USD per unità/giorno	50.000 TPM 40,00 USD per unità/giorno	99,9%	99% > 100 token al secondo²
GPT-4.1 fine tuning	30.000 TPM 165,00 USD per unità/giorno	2.500 TPM 36,00 USD per unità/giorno	99,9%	99% > 80 token al secondo²
GPT-4.1 mini fine tuning	500.000 TPM 900,00 USD per unità/giorno	50.000 TPM 175,00 USD per unità/giorno	99,9%	99% > 90 token al secondo²
o3	25.000 TPM 75,00 USD per unità/giorno	5000 TPM 60,00 USD per unità/giorno	99,9%	99% > 80 token al secondo²
o4-mini	30.000 TPM 50,00 USD per unità/giorno	5000 TPM 32,50 USD per unità/giorno	99,9%	99% > 90 token al secondo²
GPT-4o	30.000 TPM 124,59 USD per unità/giorno	2.500 TPM 39,34 USD per unità/giorno	99,9%	99% > 80 token al secondo²
GPT-4o mini	500.000 TPM 114,75 USD per unità/giorno	50.000 TPM 49,18 USD per unità/giorno	99,9%	99% > 90 token al secondo²
GPT-4o mini fine tuning	500.000 TPM 229,50 USD per unità/giorno	50.000 TPM 98,36 USD per unità/giorno	99,9%	99% > 90 token al secondo²
o1	5000 TPM 163,93 USD per unità/giorno	1000 TPM 131,15 USD per unità/giorno	99,9%	99% > 80 token al secondo²
o3-mini	30.000 TPM 78,69 USD per unità/giorno	5000 TPM 52,46 USD per unità/giorno	99,9%	99% > 90 token al secondo²

1Richieste stimate a >128.000 token di prompt

2Calcolata come latenza della richiesta p50 su base 5 minuti. Per i clienti con contratti aziendali che prevedono SLA di latenza calcolati come latenza della richiesta p50 su base al minuto, anche gli SLA precedenti sono ancora applicabili.

3Con GPT-5.4, Scale Tier è acquistabile come bundle di token di input e di output combinati al minuto. L'utilizzo di token di input, token di input memorizzati nella cache e token di output viene conteggiato a tariffe diverse rispetto a questo bundle combinato. Consulta qui di seguito la sezione Come funziona.

4Contesto lungo è>272K

Come funziona

Con Scale Tier è possibile acquistare unità di token di input e di output. Ad esempio, con GPT‑4.1 ogni unità di input costa 110 USD al giorno e dà diritto a 30.000 token di input al minuto. Ogni unità di output costa 36 USD al giorno e dà diritto a 2.500 token di output al minuto. Ogni unità di token viene acquistata per un minimo di 30 giorni.

Ulteriori informazioni su come Scale Tier interagisce con Prompt Caching sono disponibili nella sezione FAQ qui sotto.

Con GPT‑5.4 acquisti token di input e di output combinati al minuto. Questo offre maggiore flessibilità ed elimina la necessità di prevedere il rapporto tra token di input e di output. Quando si utilizza Scale Tier, conteggiamo i token rispetto ai token combinati come segue:

I token di input contano come 1
I token di input memorizzati nella cache seguono la cache per modello, come indicato di seguito nella sezione FAQ
Conteggio dei token di output in base al rapporto di prezzo tra i token di output e quelli di input per il modello PayG. Ad esempio, con GPT‑5.4 un token di output equivale a 6.

Tariffe

Ai fini della fatturazione, i token per minuto (TPM) sono calcolati facendo la media del numero di token utilizzati in intervalli di 15 minuti all'inizio di ogni ora (ad esempio, dalle 3:00 alle < 3:15, dalle 3:15 alle < 3:30, ecc). Se il totale dei token utilizzati in un periodo di 15 minuti è inferiore a quello previsto dal tuo Scale Tier, i token non vengono addebitati. Ad esempio, se acquisti Scale Tier per GPT‑4o con un diritto di 30.000 token di input al minuto, è possibile utilizzare fino a 450.000 token di input in un periodo di 15 minuti senza incorrere in costi aggiuntivi. I token utilizzati oltre questo limite vengono addebitati alle tariffe a consumo (Pay as you go - PAYG).

Unità di token e limiti tariffari

Puoi vedere i tuoi limiti di frequenza attuali nella pagina delle impostazioni⁠(si apre in una nuova finestra). Quando acquisti unità di token per Scale Tier, i limiti di tariffa per quel modello aumentano automaticamente in relazione alla quantità acquistata. Quando utilizzi questo modello, le richieste verranno elaborate in primo luogo utilizzando la quota più veloce di Scale Tier. Se superi la tua quota, le richieste aggiuntive verranno elaborate utilizzando il normale servizio di elaborazione Standard. Se superi il limite totale di velocità in un minuto tra Scale Tier e i normali limiti di elaborazione Standard, le richieste aggiuntive verranno rifiutate come di consueto con un codice di errore 429.

Sì, è possibile utilizzare il parametro "service_tier" nell'API per il completamento delle chat. Se si indica "auto", verrà utilizzata la quota Scale Tier quando disponibile. Se si indica "default", verrà utilizzata la quota di elaborazione Standard. La risposta includerà anche un parametro "service_tier" che indica quale servizio ha effettivamente elaborato la richiesta. I valori sono "scale" o "default".

Offriamo sconti diversi sui token di input memorizzati nella cache (50%, 75% o 90%) a seconda del modello. Se invii 50.000 TPM in token di input memorizzati nella cache su un modello in cui questi token sono scontati del 50%, contano solo per 25.000 TPM rispetto alla tua quota. Se invii 50.000 TPM in token di input memorizzati nella cache su un modello in cui questi token sono scontati del 75%, contano solo per 12.500 TPM rispetto alla tua quota. Scopri di più sulla cache del prompt ↗⁠(si apre in una nuova finestra)

Scale Tier per i clienti API

Come funziona

Tariffe

Come si ottiene Scale Tier e come funziona?

Quando inizia la fatturazione?

Come vengono calcolati i sovraccarichi della modalità di pagamento a consumo mentre si utilizza Scale Tier?

Se mi impegno per un anno intero, la mia spesa si applica solo a Scale Tier?

Il mio impegno annuale è legato a un servizio specifico?

Se sto già utilizzando la capacità riservata, come posso utilizzare Scale Tier per GPT-4o?

Unità di token e limiti tariffari

Come posso acquistare unità di token su Scale Tier?

Come posso conoscere il mio TPM?

Come posso calcolare i miei limiti tariffari complessivi?

Posso scegliere quali richieste vengono elaborate con Scale Tier?

Come funziona Scale Tier con il Prompt Caching?

Modelli

Come funzionano le altre modalità con Scale Tier?

Scale Tier supporta il fine tuning?

Posso inviare automaticamente il carico di spill-over di Scale Tier all'elaborazione Prioritaria?

Affidabilità

Cosa succede se gli SLA di latenza e uptime vengono entrambi violati?

Politiche

Come funziona l'assenza di conservazione dei dati (ZDR) per Scale Tier?