Prioriteitsverwerking voor API-klanten
Prioriteitsverwerking biedt betrouwbare, snelle prestaties met de flexibiliteit om te betalen wanneer je het nodig hebt.
Door te kiezen voor prioriteitsverwerking, kun je het volgende ontgrendelen:
- Voorspelbaar lage latentie: Prioriteitsverwerking genereert tokens sneller en met een consistentere snelheid dan de standaardverwerkingsservice, zelfs tijdens piekuren.
- Gebruiksvriendelijke flexibiliteit: Net als bij standaardverwerking kan prioriteitsverwerking op een flexibele, pay-as-you-go-basis worden benaderd zonder dat het vooraf moet worden ingesteld.
| Prijs per miljoen invoertokens | Prijs per miljoen invoertokens (uit de cache) | Prijs per miljoen uitvoertokens | Beschikbaarheid SLA3 | Latentie SLA3 | |
|---|---|---|---|---|---|
GPT-5.5 sluit lange context uit1 | US$ 12,50 | US$ 1,250 | US$ 75,00 | 99,9% | In 99% van de gevallen meer dan 50 tokens per seconde2 |
GPT-5.4 mini sluit lange context uit1 | US$ 1,50 | US$ 0,150 | US$ 9,00 | 99,9% | In 99% van de gevallen meer dan 100 tokens per seconde2 |
GPT-5.4 sluit lange context uit1 | US$ 5,00 | US$ 0,500 | US$ 30,00 | 99,9% | In 99% van de gevallen meer dan 50 tokens per seconde2 |
GPT-5.2 sluit lange context uit1 | US$ 3,50 | US$ 0,350 | US$ 28,00 | 99,9% | In 99% van de gevallen meer dan 50 tokens per seconde2 |
GPT-5.1 sluit lange context uit1 | US$ 2,50 | US$ 0,250 | US$ 20,00 | 99,9% | In 99% van de gevallen meer dan 50 tokens per seconde2 |
GPT-5 sluit lange context uit1 | US$ 2,50 | US$ 0,250 | US$ 20,00 | 99,9% | In 99% van de gevallen meer dan 50 tokens per seconde2 |
GPT-5 mini sluit lange context uit1 | US$ 0,45 | US$ 0,045 | US$ 3,60 | 99,9% | In 99% van de gevallen meer dan 80 tokens per seconde2 |
GPT-5.1 codex sluit lange context uit1 | US$ 2,50 | US$ 0,250 | US$ 20,00 | 99,9% | In 99% van de gevallen meer dan 50 tokens per seconde2 |
GPT-5 codex sluit lange context uit1 | US$ 2,50 | US$ 0,250 | US$ 20,00 | 99,9% | In 99% van de gevallen meer dan 50 tokens per seconde2 |
GPT-4.1 sluit lange context uit1 | US$ 3,50 | US$ 0,875 | US$ 14,00 | 99,9% | In 99% van de gevallen meer dan 80 tokens per seconde2 |
GPT-4.1 mini sluit lange context uit1 | US$ 0,70 | US$ 0,175 | US$ 2,80 | 99,9% | In 99% van de gevallen meer dan 90 tokens per seconde2 |
GPT-4.1 nano sluit lange context uit1 | US$ 0,20 | US$ 0,050 | US$ 0,80 | 99,9% | In 99% van de gevallen meer dan 100 tokens per seconde2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | US$ 4,25 | US$ 2,125 | US$ 17,00 | 99,9% | In 99% van de gevallen meer dan 80 tokens per seconde2 |
gpt-4o-2024-05-13 | US$ 8,75 | — | US$ 26,25 | 99,9% | In 99% van de gevallen meer dan 80 tokens per seconde2 |
GPT-4o mini | US$ 0,25 | US$ 0,125 | US$ 1,00 | 99,9% | In 99% van de gevallen meer dan 90 tokens per seconde2 |
o3 | US$ 3,50 | US$ 0,875 | US$ 14,00 | 99,9% | In 99% van de gevallen meer dan 80 tokens per seconde2 |
o4-mini | US$ 2,00 | US$ 0,500 | US$ 8,00 | 99,9% | In 99% van de gevallen meer dan 90 tokens per seconde2 |
Hoe het werkt
Klanten kunnen per verzoek verkeer naar prioriteitsverwerking leiden met behulp van de bestaande parameter service_tier, met de optie service_tier = "priority".
Tokens die door prioriteitsverwerking worden afgehandeld, worden per token gefactureerd en zijn relatief hoger geprijsd dan de standaard verwerkingstarieven.
Naast dat je het op verzoekniveau kunt instellen, kun je ook een project standaard instellen op prioriteitsverwerking in de projectinstellingen → Standaard serviceniveau: Prioriteit. Je kunt nog steeds per verzoek overschrijven.
Beperkingen
- Prioriteitsverwerkingslimieten worden gedeeld met andere serviceniveaus.
- In zeldzame gevallen kunnen snelle stijgingen van het aantal tokens per minuut met prioriteitsverwerking ertoe leiden dat je de gefaseerde volumelimieten bereikt. Als je de gefaseerde volumelimieten overschrijdt, kan extra verkeer in plaats daarvan naar standaardverwerking worden gestuurd.