Zum Hauptinhalt springen
OpenAI

Vorrangige Verarbeitung für API-Kunden

Die vorrangige Verarbeitung bietet zuverlässige Hochgeschwindigkeitsleistung mit der Flexibilität des „Pay-as-you-go“-Dienstes.

Durch Auswahl der vorrangigen Verarbeitung erhältst du Folgendes:

  • Vorhersehbar niedrige Latenz: Die vorrangige Verarbeitung generiert Token schneller und mit konstanterer Geschwindigkeit als der Standardverarbeitungsdienst, selbst bei hoher Nachfrage.
  • Benutzerfreundliche Flexibilität: Wie bei der Standardverarbeitung kannst du auch bei der vorrangigen Verarbeitung flexibel und nutzungsabhängig bezahlen, ohne dass eine Bereitstellung im Voraus erforderlich ist.
Preis pro 1 Million Eingabe-TokensPreis pro 1 Million Eingabe-Tokens (zwischengespeichert)Preis pro 1 Million Output-TokensUptime SLA3Latenz-SLA (Service Level Agreement)3
GPT-5.5
schließt Langzeit-Kontext aus1
12,50 $1,250 $75,00 $99,9 %99 % > 50 Tokens pro Sekunde2
GPT-5.4 mini
schließt Langzeit-Kontext aus1
1,50 $0,150 $9,00 $99,9 %99 % > 100 Tokens pro Sekunde2
GPT-5.4
schließt Langzeit-Kontext aus1
5,00 $0,500 $30,00 $99,9 %99 % > 50 Tokens pro Sekunde2
GPT-5.2
schließt Langzeit-Kontext aus1
3,50 $0,350 $28,00 $99,9 %99 % > 50 Tokens pro Sekunde2
GPT-5.1
schließt Langzeit-Kontext aus1
2,50 $0,250 $20,00 $99,9 %99 % > 50 Tokens pro Sekunde2
GPT-5
schließt Langzeit-Kontext aus1
2,50 $0,250 $20,00 $99,9 %99 % > 50 Tokens pro Sekunde2
GPT-5 mini
schließt Langzeit-Kontext aus1
0,45 $0,045 $3,60 $99,9 %99 % > 80 Tokens pro Sekunde2
GPT-5.1 codex
schließt Langzeit-Kontext aus1
2,50 $0,250 $20,00 $99,9 %99 % > 50 Tokens pro Sekunde2
GPT-5 codex
schließt Langzeit-Kontext aus1
2,50 $0,250 $20,00 $99,9 %99 % > 50 Tokens pro Sekunde2
GPT-4.1
schließt Langzeit-Kontext aus1
3,50 $0,875 $14,00 $99,9 %99 % > 80 Tokens pro Sekunde2
GPT-4.1 mini
schließt Langzeit-Kontext aus1
0,70 $0,175 $2,80 $99,9 %99 % > 90 Tokens pro Sekunde2
GPT-4.1 nano
schließt Langzeit-Kontext aus1
0,20 $0,050 $0,80 $99,9 %99 % > 100 Tokens pro Sekunde2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 $2,125 $17,00 $99,9 %99 % > 80 Tokens pro Sekunde2
gpt-4o-2024-05-13
8,75 $26,25 $99,9 %99 % > 80 Tokens pro Sekunde2
GPT-4o mini
0,25 $0,125 $1,00 $99,9 %99 % > 90 Tokens pro Sekunde2
o3
3,50 $0,875 $14,00 $99,9 %99 % > 80 Tokens pro Sekunde2
o4-mini
2,00 $0,500 $8,00 $99,9 %99 % > 90 Tokens pro Sekunde2
1Anfragen mit geschätztem Umfang von über 128.000 Prompt-Tokens
2Berechnet als p50-Anfragelatenz auf 5-Minuten-Basis. Für Kunden mit bestehenden Unternehmensverträgen, deren Latenz-SLAs als p50-Anfragelatenz auf Minutenbasis berechnet werden, gelten die bisherigen SLAs auch weiterhin.
3Gilt nur für Enterprise-Kunden

Funktionsweise

Kunden können den Traffic auf Anfragebasis mithilfe des bestehenden service_tier-Parameters mit der Option service_tier = „priority“ an die vorrangige Verarbeitung weiterleiten.

Tokens, die mit der vorrangigen Verarbeitung bereitgestellt werden, werden pro Token abgerechnet und kosten im Vergleich zu den Standardverarbeitungsgebühren einen Aufpreis. 

Zusätzlich zur Konfiguration auf Anfrageebene kannst du für ein Projekt auch in den Projekteinstellungen → Standard-Servicestufe: Vorrangig als Standard festlegen. Du kannst weiterhin die Einstellung pro Anfrage überschreiben.

Einschränkungen

  • Die Ratenlimits für die vorrangige Verarbeitung werden mit anderen Servicestufen geteilt. 
  • In seltenen Fällen kann eine schnelle Erhöhung deiner vorrangigen Verarbeitungs-Tokens pro Minute dazu führen, dass du die Ramp-Ratenlimits erreichst. Wenn du das Ramp-Ratenlimit überschreitest, kann zusätzlicher Traffic stattdessen an die Standardverarbeitung gesendet werden.

Preisgestaltung

Modelle

Ratenbegrenzungen

Zuverlässigkeit

Richtlinien