Prioritetsbehandling for API-kunder

Prioritetsbehandling tilbyder pålidelig ydeevne med høj hastighed og fleksibilitet til at betale efter alt efter forbrug.

Ved at vælge prioritetsbehandling kan du låse op for:

Forudsigeligt lav latens: Prioritetsbehandling genererer tokens hurtigere og ved en mere stabil hastighed sammenlignet med standardbehandlingstjenesten, selv i perioder med stor efterspørgsel.
Brugervenlig fleksibilitet: Som med standardbehandling kan prioritetsbehandling benyttes på et fleksibelt basis, hvor der betales alt efter forbrug, i stedet for at kræve betaling på forhånd.

	Pris pr. 1 mio. input-tokens	Pris pr. 1 mio. input-tokens (cachelagret)	Pris pr. 1 mio. output-tokens	Serviceniveauaftale for oppetid³	Serviceniveauaftale for latenstid³
GPT-5.5 udelukker lang kontekst¹	12,50 US$	1,250 US$	75,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5.4 mini udelukker lang kontekst¹	1,50 US$	0,150 US$	9,00 US$	99,9 %	99 % > 100 tokens pr. sekund²
GPT-5.4 udelukker lang kontekst¹	5,00 US$	0,500 US$	30,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5.2 udelukker lang kontekst¹	3,50 US$	0,350 US$	28,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5.1 udelukker lang kontekst¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5 udelukker lang kontekst¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5 mini udelukker lang kontekst¹	0,45 US$	0,045 US$	3,60 US$	99,9 %	99 % > 80 tokens pr. sekund²
GPT-5.1 codex udelukker lang kontekst¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-5 codex udelukker lang kontekst¹	2,50 US$	0,250 US$	20,00 US$	99,9 %	99 % > 50 tokens pr. sekund²
GPT-4.1 udelukker lang kontekst¹	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tokens pr. sekund²
GPT-4.1 mini udelukker lang kontekst¹	0,70 US$	0,175 US$	2,80 US$	99,9 %	99 % > 90 tokens pr. sekund²
GPT-4.1 nano udelukker lang kontekst¹	0,20 US$	0,050 US$	0,80 US$	99,9 %	99 % > 100 tokens pr. sekund²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 US$	2,125 US$	17,00 US$	99,9 %	99 % > 80 tokens pr. sekund²
gpt-4o-2024-05-13	8,75 US$	—	26,25 US$	99,9 %	99 % > 80 tokens pr. sekund²
GPT-4o mini	0,25 US$	0,125 US$	1,00 US$	99,9 %	99 % > 90 tokens pr. sekund²
o3	3,50 US$	0,875 US$	14,00 US$	99,9 %	99 % > 80 tokens pr. sekund²
o4-mini	2,00 US$	0,500 US$	8,00 US$	99,9 %	99 % > 90 tokens pr. sekund²

1Anmodninger anslået til >128.000 forespørgsels-tokens

2Beregnet som p50 anmodningslatenstid pr. 5 minutter. For kunder med eksisterende virksomhedsaftaler, der har serviceniveauaftaler for latenstid beregnet som p50 anmodningslatens på minutbasis, gælder de tidligere serviceniveauaftaler også stadig.

3Dette gælder kun Enterprise-kunder

Sådan fungerer det

Kunder kan føre trafik til prioritetsbehandling på basis af efterspørgsel ved brug af den eksisterende service_tier-parameter, med valgmuligheden service_tier = “priority”.

Tokens, der leveres af prioritetsbehandling, vil blive faktureret på et pr. token-basis og prissættes til en højere pris end prisen for standardbehandling.

Udover at være konfigureret på anmodningsniveau kan du også indstille et projekt til at være Prioritet som standard i Projektindstillinger → Standardserviceniveau: Prioritet. Du kan stadig overstyre for hver anmodning.

Begrænsninger

Brugsgrænserne for prioritetsbehandling deles med andre serviceniveauer.
I sjældne tilfælde kan en hurtig stigning i antal tokens pr. minut for prioritetsbehandling føre til, at du når brugshastighedsgrænserne. Hvis du overskrider denne brugshastighedsgrænse, kan yderligere trafik blive sendt til standardbehandling i stedet.

Priser

Modeller

Brugsgrænser

Prioritetsbehandling har brugshastighedsgrænser for at sikre konsekvent høj ydeevne for alle kunder og stadig kunne tilbyde fleksible priser alt efter forbrug. Hvis (a) effektiviteten af prioritetsbehandling forringes, OG (b) en kundes trafik øges for hurtigt, så kan visse prioritetsanmodninger blive nedgraderet til standardbehandling i stedet.

Den aktuelle brugshastighedsgrænse for prioritetsbehandling er defineret som behandling ved mindst 1 million tokens pr. minut og øger trafikken med >50 % tokens pr. minut inden for 15 minutter.

Anmodninger behandlet på standardserviceniveau vil blive faktureret til standardpriser og er ikke berettiget til målsætningen for serviceniveau for prioritetsbehandling.

Anmodninger, der behandles på standardserviceniveau, vil inkludere service_tier=”Default” i svaret.

Anbefalede fremgangsmåder til at blive inden for din brugsgrænse

Øg gradvist trafikken, når der skiftes modeller. Hvis din applikation f.eks. er ved at overgå fra et tidligere snapshot til et nyt, skal du bruge et funktionsflag til at overføre trafikken i løbet af nogle timer i stedet for alt sammen på én gang.
Undgå at køre store databehandlingsjobs eller asynkrone jobs på prioritetsbehandling. Disse jobs kan øge trafikken hurtigt, og behøver ofte ikke den forbedrede ydeevne, der er ved prioritetsbehandling.
Hvis du ofte oplever problemer med brugshastighedsgrænser, kan du overveje at købe kapacitetstrin i stedet eller som et supplement.

Driftssikkerhed

Politikker

Den aktuelle brugshastighedsgrænse for prioritetsbehandling er defineret som behandling ved mindst 1 million tokens pr. minut og øger trafikken med >50 % tokens pr. minut inden for 15 minutter.

Anmodninger behandlet på standardserviceniveau vil blive faktureret til standardpriser og er ikke berettiget til målsætningen for serviceniveau for prioritetsbehandling.

Anmodninger, der behandles på standardserviceniveau, vil inkludere service_tier=”Default” i svaret.

Anbefalede fremgangsmåder til at blive inden for din brugsgrænse

Øg gradvist trafikken, når der skiftes modeller. Hvis din applikation f.eks. er ved at overgå fra et tidligere snapshot til et nyt, skal du bruge et funktionsflag til at overføre trafikken i løbet af nogle timer i stedet for alt sammen på én gang.
Undgå at køre store databehandlingsjobs eller asynkrone jobs på prioritetsbehandling. Disse jobs kan øge trafikken hurtigt, og behøver ofte ikke den forbedrede ydeevne, der er ved prioritetsbehandling.
Hvis du ofte oplever problemer med brugshastighedsgrænser, kan du overveje at købe kapacitetstrin i stedet eller som et supplement.

Prioritetsbehandling for API-kunder

Sådan fungerer det

Begrænsninger

Priser

(For Enterprise-kunder) Hvordan interagerer dette med kapacitetstrinnet?

(For Enterprise-kunder) Kan jeg automatisk sende min overskydende trafik fra kapacitetstrin til prioritetsbehandling?

(For Enterprise-kunder) Er min årlige aftale bundet til en specifik behandlingstilstand?

Får jeg stadig en rabat på cached input-tokens?

Hvordan kan jeg se mit forbrug og udgifter til prioritetsbehandling?

Modeller

Er prioritetsbehandling tilgængelig for lang kontekst, finjusterede modeller, indlejringer osv.?

Hvordan fungerer andre modaliteter med prioritetsbehandling?

Vil fremtidige modeller være understøttet?