Vorrangige Verarbeitung für API-Kunden

Die vorrangige Verarbeitung bietet zuverlässige Hochgeschwindigkeitsleistung mit der Flexibilität des „Pay-as-you-go“-Dienstes.

Durch Auswahl der vorrangigen Verarbeitung erhältst du Folgendes:

Vorhersehbar niedrige Latenz: Die vorrangige Verarbeitung generiert Token schneller und mit konstanterer Geschwindigkeit als der Standardverarbeitungsdienst, selbst bei hoher Nachfrage.
Benutzerfreundliche Flexibilität: Wie bei der Standardverarbeitung kannst du auch bei der vorrangigen Verarbeitung flexibel und nutzungsabhängig bezahlen, ohne dass eine Bereitstellung im Voraus erforderlich ist.

	Preis pro 1 Million Eingabe-Tokens	Preis pro 1 Million Eingabe-Tokens (zwischengespeichert)	Preis pro 1 Million Output-Tokens	Uptime SLA³	Latenz-SLA (Service Level Agreement)³
GPT-5.5 schließt Langzeit-Kontext aus¹	12,50 $	1,250 $	75,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5.4 mini schließt Langzeit-Kontext aus¹	1,50 $	0,150 $	9,00 $	99,9 %	99 % > 100 Tokens pro Sekunde²
GPT-5.4 schließt Langzeit-Kontext aus¹	5,00 $	0,500 $	30,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5.2 schließt Langzeit-Kontext aus¹	3,50 $	0,350 $	28,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5.1 schließt Langzeit-Kontext aus¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5 schließt Langzeit-Kontext aus¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5 mini schließt Langzeit-Kontext aus¹	0,45 $	0,045 $	3,60 $	99,9 %	99 % > 80 Tokens pro Sekunde²
GPT-5.1 codex schließt Langzeit-Kontext aus¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-5 codex schließt Langzeit-Kontext aus¹	2,50 $	0,250 $	20,00 $	99,9 %	99 % > 50 Tokens pro Sekunde²
GPT-4.1 schließt Langzeit-Kontext aus¹	3,50 $	0,875 $	14,00 $	99,9 %	99 % > 80 Tokens pro Sekunde²
GPT-4.1 mini schließt Langzeit-Kontext aus¹	0,70 $	0,175 $	2,80 $	99,9 %	99 % > 90 Tokens pro Sekunde²
GPT-4.1 nano schließt Langzeit-Kontext aus¹	0,20 $	0,050 $	0,80 $	99,9 %	99 % > 100 Tokens pro Sekunde²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 $	2,125 $	17,00 $	99,9 %	99 % > 80 Tokens pro Sekunde²
gpt-4o-2024-05-13	8,75 $	—	26,25 $	99,9 %	99 % > 80 Tokens pro Sekunde²
GPT-4o mini	0,25 $	0,125 $	1,00 $	99,9 %	99 % > 90 Tokens pro Sekunde²
o3	3,50 $	0,875 $	14,00 $	99,9 %	99 % > 80 Tokens pro Sekunde²
o4-mini	2,00 $	0,500 $	8,00 $	99,9 %	99 % > 90 Tokens pro Sekunde²

1Anfragen mit geschätztem Umfang von über 128.000 Prompt-Tokens

2Berechnet als p50-Anfragelatenz auf 5-Minuten-Basis. Für Kunden mit bestehenden Unternehmensverträgen, deren Latenz-SLAs als p50-Anfragelatenz auf Minutenbasis berechnet werden, gelten die bisherigen SLAs auch weiterhin.

3Gilt nur für Enterprise-Kunden

Funktionsweise

Kunden können den Traffic auf Anfragebasis mithilfe des bestehenden service_tier-Parameters mit der Option service_tier = „priority“ an die vorrangige Verarbeitung weiterleiten.

Tokens, die mit der vorrangigen Verarbeitung bereitgestellt werden, werden pro Token abgerechnet und kosten im Vergleich zu den Standardverarbeitungsgebühren einen Aufpreis.

Zusätzlich zur Konfiguration auf Anfrageebene kannst du für ein Projekt auch in den Projekteinstellungen → Standard-Servicestufe: Vorrangig als Standard festlegen. Du kannst weiterhin die Einstellung pro Anfrage überschreiben.

Einschränkungen

Die Ratenlimits für die vorrangige Verarbeitung werden mit anderen Servicestufen geteilt.
In seltenen Fällen kann eine schnelle Erhöhung deiner vorrangigen Verarbeitungs-Tokens pro Minute dazu führen, dass du die Ramp-Ratenlimits erreichst. Wenn du das Ramp-Ratenlimit überschreitest, kann zusätzlicher Traffic stattdessen an die Standardverarbeitung gesendet werden.

Preisgestaltung

Modelle

Ratenbegrenzungen

Die vorrangige Verarbeitung hat Ramp-Ratenlimits, um eine konstant hohe Leistung für alle Kunden sicherzustellen, während sie gleichzeitig flexible, bedarfsgerechte Preisgestaltung bietet. Wenn (a) die Leistung der vorrangigen Verarbeitung nachlässt und (b) der Traffic eines Kunden zu schnell ansteigt, können einige Prioritätsanfragen auf die Standardverarbeitung herabgestuft werden.

Das aktuelle Ramp-Ratenlimit für die vorrangige Verarbeitung ist so definiert, dass mindestens 1 Mio. TPM verarbeitet werden und der Traffic in weniger als 15 Minuten um >50 % Tokens pro Minute erhöht wird.

Anfragen, die auf der Servicestufe „Standard“ verarbeitet werden, werden zu Standardtarifen abgerechnet und für sie gelten die Service-Level-Ziele der vorrangigen Verarbeitung nicht.

Auf der Servicestufe „Standard“ verarbeitete Anfragen enthalten in der Antwort service_tier=”Default”.

Bewährte Vorgehensweisen zum Einhalten der Ramp-Ratenlimits

Schrittweise Erhöhung des Traffics, wenn das Modell gewechselt wird. Wenn deine Anwendung beispielsweise von einem vorherigen Schnappschuss auf einen neuen umgestellt wird, verwende ein Feature-Flag, um den Traffic im Laufe einiger Stunden umzuleiten, statt alles auf einmal umzustellen.
Vermeide die Ausführung großer Datenverarbeitungsvorgänge oder asynchroner Aufgaben bei der vorrangigen Verarbeitung. Bei diesen Jobs kann der Traffic sehr schnell ansteigen und die verbesserte Leistung der vorrangigen Verarbeitung ist häufig nicht erforderlich.
Wenn du regelmäßig auf Ramp-Ratenlimits stößt, solltest du den Erwerb von Scale-Tier-Kapazitäten in Erwägung ziehen, entweder zusätzlich oder anstelle dessen.

Zuverlässigkeit

Richtlinien

Anfragen, die auf der Servicestufe „Standard“ verarbeitet werden, werden zu Standardtarifen abgerechnet und für sie gelten die Service-Level-Ziele der vorrangigen Verarbeitung nicht.

Auf der Servicestufe „Standard“ verarbeitete Anfragen enthalten in der Antwort service_tier=”Default”.

Bewährte Vorgehensweisen zum Einhalten der Ramp-Ratenlimits

Schrittweise Erhöhung des Traffics, wenn das Modell gewechselt wird. Wenn deine Anwendung beispielsweise von einem vorherigen Schnappschuss auf einen neuen umgestellt wird, verwende ein Feature-Flag, um den Traffic im Laufe einiger Stunden umzuleiten, statt alles auf einmal umzustellen.
Vermeide die Ausführung großer Datenverarbeitungsvorgänge oder asynchroner Aufgaben bei der vorrangigen Verarbeitung. Bei diesen Jobs kann der Traffic sehr schnell ansteigen und die verbesserte Leistung der vorrangigen Verarbeitung ist häufig nicht erforderlich.
Wenn du regelmäßig auf Ramp-Ratenlimits stößt, solltest du den Erwerb von Scale-Tier-Kapazitäten in Erwägung ziehen, entweder zusätzlich oder anstelle dessen.

Vorrangige Verarbeitung für API-Kunden

Funktionsweise

Einschränkungen

Preisgestaltung

(Für Enterprise-Kunden) Wie ist dies mit Scale Tier verbunden?

(Für Enterprise-Kunden) Kann ich meinen Spillover-Traffic von Scale Tier automatisch zur vorrangigen Bearbeitung senden?

(Für Enterprise-Kunden) Ist meine jährliche Verpflichtung an einen bestimmten Verarbeitungsmodus gebunden?

Erhalte ich weiterhin Rabatt auf zwischengespeicherte Eingabe-Tokens?

Wie kann ich meine Nutzung und Ausgaben für die vorrangige Verarbeitung einsehen?

Modelle

Ist die vorrangige Verarbeitung für Long-Context-, fein abgestimmte Modelle, Einbettungen usw. verfügbar?

Wie funktionieren andere Modalitäten mit der vorrangigen Verarbeitung?

Werden zukünftige Modelle unterstützt?