API-asiakkaiden prioriteettikäsittely

Prioriteettikäsittely tarjoaa luotettavan, nopean suorituskyvyn ja joustavuutta maksaa käytön mukaan.

Prioriteettikäsittely avaa seuraavat ominaisuudet:

Ennustettavasti vähäinen viive: Prioriteettikäsittely luo tokenit nopeammin ja tasaisemmalla nopeudella kuin vakiokäsittelypalvelu, jopa huippukysynnän aikana.
Helppokäyttöinen joustavuus: Kuten vakiokäsittelyä, myös prioriteettikäsittelyä voidaan käyttää joustavasti ja maksuperusteisesti sen sijaan, että se edellyttäisi etukäteisvalmistelua.

	Hinta per 1M syötetunnistetta	Hinta per 1M syötetunnistetta (välimuistissa olevaa)	Hinta per 1M tuotostunnistetta	Käytettävyysajan palvelutasosopimus (SLA)³	Viiveen palvelutasosopimus (SLA)³
GPT-5.5 ei sisällä pitkää kontekstia¹	12,50 $	1,250 $	75,00 $	99,9 %	99 % > 50 tunnistetta sekunnissa²
GPT-5.4 mini ei sisällä pitkää kontekstia¹	1,50 $	0,150 $	9,00 $	99,9 %	99 % > 100 tunnistetta sekunnissa²
GPT-5.4 ei sisällä pitkää kontekstia¹	5,00 $	0,500 $	30,00 $	99,9 %	99 % > 50 tunnistetta sekunnissa²
GPT-5.2 ei sisällä pitkää kontekstia¹	3,50 $	0,350 $	28,00 $	99,9 %	99 % > 50 tunnistetta sekunnissa²
GPT-5.1 ei sisällä pitkää kontekstia¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 tunnistetta sekunnissa²
GPT-5 ei sisällä pitkää kontekstia¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 tunnistetta sekunnissa²
GPT-5 mini ei sisällä pitkää kontekstia¹	0,45 $	0,045 $	3,60 $	99,9 %	99 % > 80 tunnistetta sekunnissa²
GPT-5.1 codex ei sisällä pitkää kontekstia¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 tunnistetta sekunnissa²
GPT-5 codex ei sisällä pitkää kontekstia¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 tunnistetta sekunnissa²
GPT-4.1 ei sisällä pitkää kontekstia¹	3,50 $	0,875 $	14,00 $	99,9 %	99 % > 80 tunnistetta sekunnissa²
GPT-4.1 mini ei sisällä pitkää kontekstia¹	0,70 $	0,175 $	2,80 $	99,9 %	99 % > 90 tunnistetta sekunnissa²
GPT-4.1 nano ei sisällä pitkää kontekstia¹	0,20 $	0,050 $	0,80 $	99,9 %	99 % > 100 tunnistetta sekunnissa²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 $	2,125 $	17,00 $	99,9 %	99 % > 80 tunnistetta sekunnissa²
gpt-4o-2024-05-13	8,75 $	—	26,25 $	99,9 %	99 % > 80 tunnistetta sekunnissa²
GPT-4o mini	0,25 $	0,125 $	1,00 $	99,9 %	99 % > 90 tunnistetta sekunnissa²
o3	3,50 $	0,875 $	14,00 $	99,9 %	99 % > 80 tunnistetta sekunnissa²
o4-mini	2,00 $	0,500 $	8,00 $	99,9 %	99 % > 90 tunnistetta sekunnissa²

1Pyyntöjä arviolta yli 128k kehotemerkkiä

2Lasketaan p50-pyynnön viiveenä 5 minuutin välein. Asiakkailla, joilla on voimassa oleva yrityssopimus, jossa viiveen SLA lasketaan p50-pyynnön viiveenä minuutin välein, aiemmat SLA-määritykset ovat yhä voimassa.

3Sovellettavissa vain Enterprise-asiakkaille

Miten se toimii

Asiakkaat voivat ohjata liikennettä prioriteettikäsittelyyn pyyntökohtaisesti käyttämällä olemassa olevaa service_tier-parametria, jossa on vaihtoehtona service_tier = "priority".

Prioriteettikäsittelyn kautta toimitetut tokenit laskutetaan tokenkohtaisesti, ja niiden hinta on korkeampi kuin vakiokäsittelyn.

Sen lisäksi, että voit määrittää sen pyyntökohtaisesti, voit myös asettaa projektin oletusasetukseksi Prioriteetin valikossa Projektin asetukset → Oletuspalvelutaso: Prioriteetti. Voit edelleen ohittaa pyyntökohtaisesti.

Rajoitukset

Prioriteettikäsittelyn nopeusrajat jaetaan muiden palvelutasojen kanssa.
Jos prioriteettikäsittelyn tokenien määrä minuutissa kasvaa nopeasti, se voi harvinaisissa tilanteissa ylittää nousunopeuden rajoitukset. Jos ylität nousunopeuden rajan, ylimääräinen liikenne voidaan lähettää vakiokäsittelyyn.

Hinnoittelu

Mallit

Käyttörajoitukset

Prioriteettikäsittelyssä on käyttörajoituksia, jotta kaikille asiakkaille taataan tasaisen korkea suorituskyky, samalla kun tarjotaan joustavaa ja kysyntään perustuvaa hinnoittelua. Jos (a) prioriteettikäsittelyn suorituskyky heikkenee JA (b) asiakkaan liikenne kasvaa liian nopeasti, osa prioriteettipyyntöjä voidaan ohjata vakiokäsittelyyn.

Nykyinen prioriteettikäsittelyn nousunopeuden raja määritellään käsittelyksi, jossa on vähintään 1 miljoona tokenia minuutissa, ja liikenteen kasvu on yli 50 % alle 15 minuutissa.

Vakiotason palvelutason kautta käsitellyt pyynnöt laskutetaan vakiotaksoilla, eikä niihin sovelleta prioriteettikäsittelyn palvelutasotavoitteita.

Vakiotason palvelun kautta käsitellyt pyynnöt sisältävät vastauksessa kentän service_tier=”oletus”.

Parhaat käytännöt pysyä nousunopeusrajasi sisällä

Lisää liikennettä vähitellen, kun vaihdat mallia. Esimerkiksi, jos sovelluksesi siirtyy edellisestä tilannevedoksesta uuteen, käytä ominaisuuslippua liikenteen siirtämiseen muutaman tunnin aikana sen sijaan, että siirtäisit kaiken kerralla.
Vältä suurten tietojenkäsittely- tai asynkronisten töiden suorittamista prioriteettikäsittelyssä. Nämä tehtävät voivat kasvattaa liikennettä nopeasti, eivätkä usein tarvitse Prioriteettikäsittelyn parannettua suorituskykyä.
Jos kohtaat usein nousunopeuden rajoituksia, harkitse Scale Tier -kapasiteetin ostamista joko sen sijaan tai sen lisäksi.

Luotettavuus

Käytännöt

Nykyinen prioriteettikäsittelyn nousunopeuden raja määritellään käsittelyksi, jossa on vähintään 1 miljoona tokenia minuutissa, ja liikenteen kasvu on yli 50 % alle 15 minuutissa.

Vakiotason palvelutason kautta käsitellyt pyynnöt laskutetaan vakiotaksoilla, eikä niihin sovelleta prioriteettikäsittelyn palvelutasotavoitteita.

Vakiotason palvelun kautta käsitellyt pyynnöt sisältävät vastauksessa kentän service_tier=”oletus”.

Parhaat käytännöt pysyä nousunopeusrajasi sisällä

Lisää liikennettä vähitellen, kun vaihdat mallia. Esimerkiksi, jos sovelluksesi siirtyy edellisestä tilannevedoksesta uuteen, käytä ominaisuuslippua liikenteen siirtämiseen muutaman tunnin aikana sen sijaan, että siirtäisit kaiken kerralla.
Vältä suurten tietojenkäsittely- tai asynkronisten töiden suorittamista prioriteettikäsittelyssä. Nämä tehtävät voivat kasvattaa liikennettä nopeasti, eivätkä usein tarvitse Prioriteettikäsittelyn parannettua suorituskykyä.
Jos kohtaat usein nousunopeuden rajoituksia, harkitse Scale Tier -kapasiteetin ostamista joko sen sijaan tai sen lisäksi.

API-asiakkaiden prioriteettikäsittely

Miten se toimii

Rajoitukset

Hinnoittelu

(Enterprise-asiakkaille) Miten tämä toimii Scale Tierin kanssa?

(Enterprise-asiakkaille) Voinko automaattisesti ohjata Scale Tier -ylivuotoliikenteen prioriteettikäsittelyyn?

(Enterprise-asiakkaille) Onko vuosisitoumuksesi sidottu tiettyyn käsittelytapaan?

Saanko edelleen alennusta välimuistissa olevista syötetunnuksista?

Miten voin tarkastella prioriteettikäsittelyn käyttöä ja siihen liittyviä kustannuksia?

Mallit

Onko prioriteettikäsittely saatavilla pitkille konteksteille, hienosäädetyille malleille ja upotuksille?

Miten muut modaliteetit toimivat prioriteettikäsittelyn kanssa?

Tuetaanko tulevia malleja?