Prioriteitsverwerking voor API-klanten

Prioriteitsverwerking biedt betrouwbare, snelle prestaties met de flexibiliteit om te betalen wanneer je het nodig hebt.

Door te kiezen voor prioriteitsverwerking, kun je het volgende ontgrendelen:

Voorspelbaar lage latentie: Prioriteitsverwerking genereert tokens sneller en met een consistentere snelheid dan de standaardverwerkingsservice, zelfs tijdens piekuren.
Gebruiksvriendelijke flexibiliteit: Net als bij standaardverwerking kan prioriteitsverwerking op een flexibele, pay-as-you-go-basis worden benaderd zonder dat het vooraf moet worden ingesteld.

	Prijs per miljoen invoertokens	Prijs per miljoen invoertokens (uit de cache)	Prijs per miljoen uitvoertokens	Beschikbaarheid SLA³	Latentie SLA³
GPT-5.5 sluit lange context uit¹	US$ 12,50	US$ 1,250	US$ 75,00	99,9%	In 99% van de gevallen meer dan 50 tokens per seconde²
GPT-5.4 mini sluit lange context uit¹	US$ 1,50	US$ 0,150	US$ 9,00	99,9%	In 99% van de gevallen meer dan 100 tokens per seconde²
GPT-5.4 sluit lange context uit¹	US$ 5,00	US$ 0,500	US$ 30,00	99,9%	In 99% van de gevallen meer dan 50 tokens per seconde²
GPT-5.2 sluit lange context uit¹	US$ 3,50	US$ 0,350	US$ 28,00	99,9%	In 99% van de gevallen meer dan 50 tokens per seconde²
GPT-5.1 sluit lange context uit¹	US$ 2,50	US$ 0,250	US$ 20,00	99,9%	In 99% van de gevallen meer dan 50 tokens per seconde²
GPT-5 sluit lange context uit¹	US$ 2,50	US$ 0,250	US$ 20,00	99,9%	In 99% van de gevallen meer dan 50 tokens per seconde²
GPT-5 mini sluit lange context uit¹	US$ 0,45	US$ 0,045	US$ 3,60	99,9%	In 99% van de gevallen meer dan 80 tokens per seconde²
GPT-5.1 codex sluit lange context uit¹	US$ 2,50	US$ 0,250	US$ 20,00	99,9%	In 99% van de gevallen meer dan 50 tokens per seconde²
GPT-5 codex sluit lange context uit¹	US$ 2,50	US$ 0,250	US$ 20,00	99,9%	In 99% van de gevallen meer dan 50 tokens per seconde²
GPT-4.1 sluit lange context uit¹	US$ 3,50	US$ 0,875	US$ 14,00	99,9%	In 99% van de gevallen meer dan 80 tokens per seconde²
GPT-4.1 mini sluit lange context uit¹	US$ 0,70	US$ 0,175	US$ 2,80	99,9%	In 99% van de gevallen meer dan 90 tokens per seconde²
GPT-4.1 nano sluit lange context uit¹	US$ 0,20	US$ 0,050	US$ 0,80	99,9%	In 99% van de gevallen meer dan 100 tokens per seconde²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	US$ 4,25	US$ 2,125	US$ 17,00	99,9%	In 99% van de gevallen meer dan 80 tokens per seconde²
gpt-4o-2024-05-13	US$ 8,75	—	US$ 26,25	99,9%	In 99% van de gevallen meer dan 80 tokens per seconde²
GPT-4o mini	US$ 0,25	US$ 0,125	US$ 1,00	99,9%	In 99% van de gevallen meer dan 90 tokens per seconde²
o3	US$ 3,50	US$ 0,875	US$ 14,00	99,9%	In 99% van de gevallen meer dan 80 tokens per seconde²
o4-mini	US$ 2,00	US$ 0,500	US$ 8,00	99,9%	In 99% van de gevallen meer dan 90 tokens per seconde²

1Verzoeken waarbij het geschatte aantal prompttokens meer dan 128.000 is

2Wordt berekend als p50-latentie (responstijd) in blokken van vijf minuten. Ben je al klant met een bestaand Enterprise-contract waarin de SLA voor de p50-latentie per minuut wordt berekend? Dan blijft die SLA ook gewoon gelden.

3Dit is alleen van toepassing op Enterprise-klanten

Hoe het werkt

Klanten kunnen per verzoek verkeer naar prioriteitsverwerking leiden met behulp van de bestaande parameter service_tier, met de optie service_tier = "priority".

Tokens die door prioriteitsverwerking worden afgehandeld, worden per token gefactureerd en zijn relatief hoger geprijsd dan de standaard verwerkingstarieven.

Naast dat je het op verzoekniveau kunt instellen, kun je ook een project standaard instellen op prioriteitsverwerking in de projectinstellingen → Standaard serviceniveau: Prioriteit. Je kunt nog steeds per verzoek overschrijven.

Beperkingen

Prioriteitsverwerkingslimieten worden gedeeld met andere serviceniveaus.
In zeldzame gevallen kunnen snelle stijgingen van het aantal tokens per minuut met prioriteitsverwerking ertoe leiden dat je de gefaseerde volumelimieten bereikt. Als je de gefaseerde volumelimieten overschrijdt, kan extra verkeer in plaats daarvan naar standaardverwerking worden gestuurd.

Prijzen

Modellen

Volumelimieten

Prioriteitsverwerking heeft stapsgewijze volumelimieten om consistente hoge prestaties voor alle klanten te garanderen, terwijl er toch flexibele, vraaggestuurde prijzen worden aangeboden. Als (a) de prestaties van prioriteitsverwerking afnemen en (b) het verkeer van een klant te snel toeneemt, kunnen sommige prioriteitsverzoeken worden teruggezet naar standaardverwerking.

De huidige limiet voor de snelheid van prioriteitsverwerking is gedefinieerd als het verwerken van ten minste 1 miljoen tokens per minuut (TPM) én het verhogen van het verkeer met meer dan 50% tokens per minuut binnen minder dan 15 minuten.

Verzoeken die door het standaardserviceniveau worden verwerkt, worden gefactureerd tegen standaardtarieven en komen niet in aanmerking voor de Service Level Objectives van prioriteitsverwerking.

Verzoeken die verwerkt worden via het standaard-serviceniveau zullen 'service_tier="Default"' bevatten in de reactie.

Best practices om binnen je volumelimieten te blijven

Verhoog geleidelijk het verkeer wanneer je van model verandert. Gebruik bijvoorbeeld een feature flag om het verkeer geleidelijk over een paar uur over te zetten wanneer je toepassing overstapt van een vorige snapshot naar een nieuwe, in plaats van alles in één keer te doen.
Vermijd het uitvoeren van grote dataverwerkingen of asynchrone taken op prioriteitsverwerking. Deze taken kunnen het verkeer zeer snel opschalen en hebben vaak niet de verbeterde prestaties van prioriteitsverwerking nodig.
Als je regelmatig tegen stapsgewijze volumelimieten aanloopt, overweeg dan om Scale Tier-capaciteit aan te schaffen, in plaats van of als aanvulling op je huidige gebruik.

Betrouwbaarheid

Beleidsregels

Verzoeken die door het standaardserviceniveau worden verwerkt, worden gefactureerd tegen standaardtarieven en komen niet in aanmerking voor de Service Level Objectives van prioriteitsverwerking.

Verzoeken die verwerkt worden via het standaard-serviceniveau zullen 'service_tier="Default"' bevatten in de reactie.

Best practices om binnen je volumelimieten te blijven

Verhoog geleidelijk het verkeer wanneer je van model verandert. Gebruik bijvoorbeeld een feature flag om het verkeer geleidelijk over een paar uur over te zetten wanneer je toepassing overstapt van een vorige snapshot naar een nieuwe, in plaats van alles in één keer te doen.
Vermijd het uitvoeren van grote dataverwerkingen of asynchrone taken op prioriteitsverwerking. Deze taken kunnen het verkeer zeer snel opschalen en hebben vaak niet de verbeterde prestaties van prioriteitsverwerking nodig.
Als je regelmatig tegen stapsgewijze volumelimieten aanloopt, overweeg dan om Scale Tier-capaciteit aan te schaffen, in plaats van of als aanvulling op je huidige gebruik.

Prioriteitsverwerking voor API-klanten

Hoe het werkt

Beperkingen

Prijzen

(Voor Enterprise-klanten) Hoe werkt dit samen met Scale Tier?

(Voor Enterprise-klanten) Kan ik mijn Scale Tier-overloopverkeer automatisch naar prioriteitsverwerking sturen?

(Voor Enterprise-klanten) Is mijn jaarlijkse verplichting gekoppeld aan een specifieke verwerkingsmodus?

Krijg ik nog steeds korting op invoertokens in de cache?

Hoe bekijk ik mijn gebruik en uitgaven voor prioriteitsverwerking?

Modellen

Is prioriteitsverwerking beschikbaar voor lange context, fijnafstemming van modellen, embeddings, enz.?

Hoe werken andere modaliteiten samen met prioriteitsverwerking?

Zullen toekomstige modellen ondersteund worden?