Prioritetsbehandling for API-kunder
Prioritetsbehandling tilbyder pålidelig ydeevne med høj hastighed og fleksibilitet til at betale efter alt efter forbrug.
Ved at vælge prioritetsbehandling kan du låse op for:
- Forudsigeligt lav latens: Prioritetsbehandling genererer tokens hurtigere og ved en mere stabil hastighed sammenlignet med standardbehandlingstjenesten, selv i perioder med stor efterspørgsel.
- Brugervenlig fleksibilitet: Som med standardbehandling kan prioritetsbehandling benyttes på et fleksibelt basis, hvor der betales alt efter forbrug, i stedet for at kræve betaling på forhånd.
| Pris pr. 1 mio. input-tokens | Pris pr. 1 mio. input-tokens (cachelagret) | Pris pr. 1 mio. output-tokens | Serviceniveauaftale for oppetid3 | Serviceniveauaftale for latenstid3 | |
|---|---|---|---|---|---|
GPT-5.5 udelukker lang kontekst1 | 12,50 US$ | 1,250 US$ | 75,00 US$ | 99,9 % | 99 % > 50 tokens pr. sekund2 |
GPT-5.4 mini udelukker lang kontekst1 | 1,50 US$ | 0,150 US$ | 9,00 US$ | 99,9 % | 99 % > 100 tokens pr. sekund2 |
GPT-5.4 udelukker lang kontekst1 | 5,00 US$ | 0,500 US$ | 30,00 US$ | 99,9 % | 99 % > 50 tokens pr. sekund2 |
GPT-5.2 udelukker lang kontekst1 | 3,50 US$ | 0,350 US$ | 28,00 US$ | 99,9 % | 99 % > 50 tokens pr. sekund2 |
GPT-5.1 udelukker lang kontekst1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens pr. sekund2 |
GPT-5 udelukker lang kontekst1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens pr. sekund2 |
GPT-5 mini udelukker lang kontekst1 | 0,45 US$ | 0,045 US$ | 3,60 US$ | 99,9 % | 99 % > 80 tokens pr. sekund2 |
GPT-5.1 codex udelukker lang kontekst1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens pr. sekund2 |
GPT-5 codex udelukker lang kontekst1 | 2,50 US$ | 0,250 US$ | 20,00 US$ | 99,9 % | 99 % > 50 tokens pr. sekund2 |
GPT-4.1 udelukker lang kontekst1 | 3,50 US$ | 0,875 US$ | 14,00 US$ | 99,9 % | 99 % > 80 tokens pr. sekund2 |
GPT-4.1 mini udelukker lang kontekst1 | 0,70 US$ | 0,175 US$ | 2,80 US$ | 99,9 % | 99 % > 90 tokens pr. sekund2 |
GPT-4.1 nano udelukker lang kontekst1 | 0,20 US$ | 0,050 US$ | 0,80 US$ | 99,9 % | 99 % > 100 tokens pr. sekund2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 US$ | 2,125 US$ | 17,00 US$ | 99,9 % | 99 % > 80 tokens pr. sekund2 |
gpt-4o-2024-05-13 | 8,75 US$ | — | 26,25 US$ | 99,9 % | 99 % > 80 tokens pr. sekund2 |
GPT-4o mini | 0,25 US$ | 0,125 US$ | 1,00 US$ | 99,9 % | 99 % > 90 tokens pr. sekund2 |
o3 | 3,50 US$ | 0,875 US$ | 14,00 US$ | 99,9 % | 99 % > 80 tokens pr. sekund2 |
o4-mini | 2,00 US$ | 0,500 US$ | 8,00 US$ | 99,9 % | 99 % > 90 tokens pr. sekund2 |
Sådan fungerer det
Kunder kan føre trafik til prioritetsbehandling på basis af efterspørgsel ved brug af den eksisterende service_tier-parameter, med valgmuligheden service_tier = “priority”.
Tokens, der leveres af prioritetsbehandling, vil blive faktureret på et pr. token-basis og prissættes til en højere pris end prisen for standardbehandling.
Udover at være konfigureret på anmodningsniveau kan du også indstille et projekt til at være Prioritet som standard i Projektindstillinger → Standardserviceniveau: Prioritet. Du kan stadig overstyre for hver anmodning.
Begrænsninger
- Brugsgrænserne for prioritetsbehandling deles med andre serviceniveauer.
- I sjældne tilfælde kan en hurtig stigning i antal tokens pr. minut for prioritetsbehandling føre til, at du når brugshastighedsgrænserne. Hvis du overskrider denne brugshastighedsgrænse, kan yderligere trafik blive sendt til standardbehandling i stedet.