Scale Tier för API-kunder

Det här erbjudandet är tillgängligt för Enterprise-kunder. Kontakta vårt försäljningsteam⁠ för mer information. Om du vill få tillgång till samma premiumfördelar vad gäller latens och tillförlitlighet med flexibel pay-as-you-go-betalning, se Prioritetsbearbetning⁠.

Med Scale Tier kan du på förhand köpa ett visst antal API-indata- och utdatatoken per minut (så kallade tokenenheter) för att få åtkomst till en särskild ögonblicksbild av en modell. Varje tokenenhet köps för minst 30 dagar. Fler modeller kan läggas till om kunden önskar det.

Genom att välja Scale Tier får du tillgång till:

Förutsägbar latens: Scale Tier är utformat för att generera tokens snabbare och i en jämnare takt än Pay-as-you-go-tjänsten (PAYG), även när efterfrågan är hög.
Obegränsad skalning: Alla kvoter som köps med Scale Tier läggs automatiskt till i dina kvotgränser, så att du tryggt kan skala vidare.
Högre tillförlitlighet: Scale Tier-trafik erbjuder SLA på 99,9 % drifttid och prioriterad beräkningskapacitet.

	Indatapaket	Utdatapaket	Drifttid SLA	Latens SLA
GPT-5.5	50 000 TPM 750,00 US$ per enhet/dag	Ej tillämpligt³	99,9 %	99 % > 100 tokens per sekund²
GPT-5.4 mini	50 000 TPM 100,00 US$ per enhet/dag	Ej tillämpligt³	99,9 %	99 % > 100 tokens per sekund²
GPT-5.4 exkluderar lång kontext⁴	50 000 TPM 300,00 US$ per enhet/dag	Ej tillämpligt³	99,9 %	99 % > 50 tokens per sekund²
GPT-5.2	25 000 TPM 105,00 US$ per enhet/dag	2 500 TPM 84,00 US$ per enhet/dag	99,9 %	99 % > 50 tokens per sekund²
GPT-5.1	25 000 TPM 75,00 US$ per enhet/dag	2 500 TPM 60,00 US$ per enhet/dag	99,9 %	99 % > 50 tokens per sekund²
GPT-5	25 000 TPM 75,00 US$ per enhet/dag	2 500 TPM 60,00 US$ per enhet/dag	99,9 %	99 % > 50 tokens per sekund²
GPT-5 mini	500 000 TPM 275,00 US$ per enhet/dag	50 000 TPM 220,00 US$ per enhet/dag	99,9 %	99 % > 80 tokens per sekund²
GPT-4.1 exkluderar lång kontext¹	30 000 TPM 110,00 US$ per enhet/dag	2 500 TPM 36,00 US$ per enhet/dag	99,9 %	99 % > 80 tokens per sekund²
GPT-4.1 mini exkluderar lång kontext¹	500 000 TPM 450,00 US$ per enhet/dag	50 000 TPM 175,00 US$ per enhet/dag	99,9 %	99 % > 90 tokens per sekund²
GPT-4.1 nano exkluderar lång kontext¹	500 000 TPM 110,00 US$ per enhet/dag	50 000 TPM 40,00 US$ per enhet/dag	99,9 %	99 % > 100 tokens per sekund²
GPT-4.1 fine tuning	30 000 TPM 165,00 US$ per enhet/dag	2 500 TPM 36,00 US$ per enhet/dag	99,9 %	99 % > 80 tokens per sekund²
GPT-4.1 mini fine tuning	500 000 TPM 900,00 US$ per enhet/dag	50 000 TPM 175,00 US$ per enhet/dag	99,9 %	99 % > 90 tokens per sekund²
o3	25 000 TPM 75,00 US$ per enhet/dag	5 000 TPM 60,00 US$ per enhet/dag	99,9 %	99 % > 80 tokens per sekund²
o4-mini	30 000 TPM 50,00 US$ per enhet/dag	5 000 TPM 32,50 US$ per enhet/dag	99,9 %	99 % > 90 tokens per sekund²
GPT-4o	30 000 TPM 124,59 US$ per enhet/dag	2 500 TPM 39,34 US$ per enhet/dag	99,9 %	99 % > 80 tokens per sekund²
GPT-4o mini	500 000 TPM 114,75 US$ per enhet/dag	50 000 TPM 49,18 US$ per enhet/dag	99,9 %	99 % > 90 tokens per sekund²
GPT-4o mini fine tuning	500 000 TPM 229,50 US$ per enhet/dag	50 000 TPM 98,36 US$ per enhet/dag	99,9 %	99 % > 90 tokens per sekund²
o1	5 000 TPM 163,93 US$ per enhet/dag	1 000 TPM 131,15 US$ per enhet/dag	99,9 %	99 % > 80 tokens per sekund²
o3-mini	30 000 TPM 78,69 US$ per enhet/dag	5 000 TPM 52,46 US$ per enhet/dag	99,9 %	99 % > 90 tokens per sekund²

1Förfrågningar uppskattade till >128 000 prompttokens

2Beräknat som medianlatens (p50) för förfrågningar under varje 5-minutersperiod. För kunder med befintliga företagsavtal som har latens-SLA:er beräknade som medianlatens (p50) för förfrågningar per minut, gäller de tidigare SLA:erna fortfarande.

3Med GPT-5.4 köps skalningsnivån som ett paket med kombinerade in- och utdatatokens per minut. Användning av indatatokens, cachade indatatokens och utdatatokens räknas mot detta kombinerade paket som finns i olika gränser. Se avsnittet "Så här fungerar det" nedan.

4Lång kontext är >272 000

Så här fungerar det

Med Scale Tier kan du köpa indata- och utdatatokenenheter. För GPT‑4.1 kostar till exempel varje indataenhet 110 $/dag och ger dig rätt till 30 000 indatatoken/min. Varje utdataenhet kostar 36$/dag och ger dig rätt till 2500 utdatatoken/min. Varje tokenenhet köps för minst 30 dagar.

Mer information om hur Scale Tier interagerar med Prompt Caching finns i avsnittet Vanliga frågor nedan.

Med GPT‑5.4 köper du kombinerade indata- och utdatatokens/min. Detta ger dig större flexibilitet och eliminerar behovet av att förutsäga din tokenkvot för indata och utdata. När du använder skalningsnivå räknar vi tokens mot dina kombinerade tokens enligt följande:

Indatatoken räknas som 1
Cachade indatatokens följer cachelagring per modell enligt nedan i avsnittet Vanliga frågor
Antal utdatatokens baserat på PAYG-prisförhållandet mellan utdata- och indatatokens för modellen. Till exempel räknas en token som 6 med GPT‑5.4.

Priser

För faktureringsändamål beräknas token per minut (TPM) genom att man tar fram genomsnittet av antalet använda tokens under 15-minutersintervall som börjar varje heltimme (t.ex. 15:00 till < 15:15, 15:15 till < 15:30 osv). Om det totala antalet token som används under en 15-minutersperiod understiger det antal som du är berättigad till enligt Scale Tier, faktureras de inte. Om du exempelvis köper Scale Tier för GPT‑4o som gör att du är berättigad till 30 000 indatatoken per minut kan du använda upp till 450 000 indatatoken under valfri 15-minuters period utan att några extra avgifter tillkommer. Alla token som används över den här gränsen faktureras med Pay-as-you-go-priser (PAYG).

Tokenenheter och kvotgränser

Du kan se dina nuvarande kvotgränser på sidan för dina inställningar⁠⁠(öppnas i ett nytt fönster). När du köper tokenenheter för Scale Tier ökar dina kvotgränser för den modellen automatiskt med antalet som du har köpt. När du använder modellen kommer begäranden först att behandlas med din snabbare Scale Tier-kvot. Om du överskrider din kvot kommer ytterligare begäranden att behandlas med den ordinarie standardbearbetningstjänsten. Om du överskrider din totala kvotgräns inom en minut på Scale Tier och ordinarie standardbearbetningsgränser, kommer ytterligare förfrågningar att avvisas med felkoden 429.

Vi erbjuder olika rabatter på cachade indatatokens (50 %, 75 % eller 90 %) beroende på modell. Om du skickar 50 000 TPM i cachade indatatokens på en modell där cachade tokens rabatteras med 50 %, räknas dessa tokens endast som 25 000 TPM i din kvot. Om du skickar 50 000 TPM i cachade indatatokens på en modell där cachade tokens rabatteras med 75 %, räknas dessa tokens endast som 12 500 TPM i din kvot. Läs mer om Prompt Caching ↗⁠(öppnas i ett nytt fönster)

Scale Tier för API-kunder

Så här fungerar det

Priser

Hur kan man beställa och få tillgång till Scale Tier?

När börjar faktureringen?

Hur beräknas den Pay-as-you-go-användning som överstiger min köpta kvot för Scale Tier?

Om jag skriver på ett årsavtal innebär det att jag bara kan använda Scale Tier?

Är mitt årsavtal kopplat till ett specifikt erbjudande?

Om jag redan använder Reserved Capacity hur kan jag använda Scale Tier för GPT-4o?

Tokenenheter och kvotgränser

Hur kan jag köpa tokenenheter på Scale Tier?

Hur vet jag mina TPM?

Hur tar jag reda på min totala kvotgräns?

Kan jag välja vilka förfrågningar som omfattas av Scale Tier?

Hur fungerar Scale Tier med Prompt Caching?

Modeller

Hur fungerar andra funktioner med Scale Tier?

Har Scale Tier stöd för finjustering?

Kan jag automatiskt skicka överbliven trafik från Scale Tier till prioritetsbearbetning?

Tillförlitlighet

Vad händer om varken SLA för latens eller drifttid efterföljs?

Policyer

Hur fungerar noll datalagring (ZDR) med Scale Tier?