Traitement prioritaire pour les clients API

Le traitement prioritaire allie la fiabilité, les performances haut débit et la flexibilité du paiement à l’utilisation.

En optant pour le traitement prioritaire, vous bénéficiez de nombreux avantages :

Latence faible et prévisible : le traitement prioritaire génère des jetons plus rapidement et à une vitesse plus constante que le service de traitement standard, même en période de forte demande.
Flexibilité d’utilisation : comme le traitement standard, le traitement prioritaire est accessible de manière flexible, sur une base de facturation à l’usage, sans nécessiter de capacité provisionnée à l’avance.

	Prix pour 1 000 000 jetons d’entrée	Prix pour 1 000 000 de jetons d’entrée (mis en mémoire cache)	Prix pour 1 000 000 de jetons de sortie	SLA de disponibilité³	SLA de latence³
GPT-5.5 hors requêtes à long contexte¹	12,50 $US	1,250 $US	75,00 $US	99,9 %	99 % > 50 jetons par seconde²
GPT-5.4 mini hors requêtes à long contexte¹	1,50 $US	0,150 $US	9,00 $US	99,9 %	99 % > 100 jetons par seconde²
GPT-5.4 hors requêtes à long contexte¹	5,00 $US	0,500 $US	30,00 $US	99,9 %	99 % > 50 jetons par seconde²
GPT-5.2 hors requêtes à long contexte¹	3,50 $US	0,350 $US	28,00 $US	99,9 %	99 % > 50 jetons par seconde²
GPT-5.1 hors requêtes à long contexte¹	2,50 $US	0,250 $US	20,00 $US	99,9 %	99 % > 50 jetons par seconde²
GPT-5 hors requêtes à long contexte¹	2,50 $US	0,250 $US	20,00 $US	99,9 %	99 % > 50 jetons par seconde²
GPT-5 mini hors requêtes à long contexte¹	0,45 $US	0,045 $US	3,60 $US	99,9 %	99 % > 80 jetons par seconde²
GPT-5.1 codex hors requêtes à long contexte¹	2,50 $US	0,250 $US	20,00 $US	99,9 %	99 % > 50 jetons par seconde²
GPT-5 codex hors requêtes à long contexte¹	2,50 $US	0,250 $US	20,00 $US	99,9 %	99 % > 50 jetons par seconde²
GPT-4.1 hors requêtes à long contexte¹	3,50 $US	0,875 $US	14,00 $US	99,9 %	99 % > 80 jetons par seconde²
GPT-4.1 mini hors requêtes à long contexte¹	0,70 $US	0,175 $US	2,80 $US	99,9 %	99 % > 90 jetons par seconde²
GPT-4.1 nano hors requêtes à long contexte¹	0,20 $US	0,050 $US	0,80 $US	99,9 %	99 % > 100 jetons par seconde²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	4,25 $US	2,125 $US	17,00 $US	99,9 %	99 % > 80 jetons par seconde²
gpt-4o-2024-05-13	8,75 $US	—	26,25 $US	99,9 %	99 % > 80 jetons par seconde²
GPT-4o mini	0,25 $US	0,125 $US	1,00 $US	99,9 %	99 % > 90 jetons par seconde²
o3	3,50 $US	0,875 $US	14,00 $US	99,9 %	99 % > 80 jetons par seconde²
o4-mini	2,00 $US	0,500 $US	8,00 $US	99,9 %	99 % > 90 jetons par seconde²

1Requêtes estimées à plus de 128 000 jetons de prompt

2Latence médiane des requêtes sur une période de 5 minutes Pour les clients ayant des accords d’entreprise existants incluant des SLA de latence calculés sur la latence médiane des requêtes par minute, les SLA précédents restent valables.

3Ne concerne que les clients Enterprise

Comment ça marche ?

Les clients peuvent orienter le trafic vers le traitement prioritaire à la demande en utilisant le paramètre service_tier existant, avec l’option service_tier = “priority”.

Les jetons faisant l’objet d’un traitement prioritaire seront facturés au jeton, à un prix majoré par rapport à celui des jetons associés à un traitement standard.

En plus de sa configuration au niveau de la requête, vous pouvez aussi configurer un projet pour utiliser Priorité par défaut dans les paramètres du projet → Niveau de service par défaut : Priorité. Vous pouvez toujours le modifier pour chaque demande.

Limites

Les limites de débit du traitement prioritaire sont partagées avec les autres offres.
Dans de rares cas, une augmentation rapide du nombre de jetons par minute dans le cadre du traitement prioritaire peut entraîner un dépassement des limites de montée en charge. Ce dépassement peut entraîner une bascule du trafic additionnel vers le traitement standard.

Tarification

Modèles

Limites de débit

Le traitement prioritaire est soumis à des limites de montée en charge du trafic afin de garantir des performances élevées et constantes pour tous les clients, tout en offrant une tarification flexible et à la demande. Si (a) les performances du traitement prioritaire se dégradent et (b) que le trafic d’un client augmente trop rapidement, certaines demandes prioritaires peuvent être basculées vers le traitement standard.

La limite actuelle pour le traitement prioritaire est définie à au moins 1 million de jetons par minute (JPM), avec une augmentation du trafic supérieure à 50 % en moins de 15 minutes.

Les demandes traitées par le niveau de service standard seront facturées au tarif standard et ne sont pas prises en compte dans les objectifs de niveau de service (SLO) du traitement prioritaire.

Les demandes traitées par le niveau de service Standard fourniront une réponse avec la mention service_tier="Default".

Bonnes pratiques pour rester dans les limites de montée en charge

Augmentez progressivement le trafic lors d’un changement de modèle. Par exemple, si votre application passe d’un instantané précédent à un nouvel instantané, utilisez un indicateur de fonctionnalité pour faire basculer le trafic sur quelques heures plutôt qu’en une seule fois.
Évitez d’exécuter des traitements sur de grandes quantités de données ou des tâches asynchrones sur le traitement prioritaire. Ces tâches peuvent faire augmenter le trafic très rapidement et n’ont souvent pas besoin des performances améliorées du traitement prioritaire.
Si vous atteignez régulièrement les limites de montée en charge, envisagez d’opter pour l’offre Scale, en complément ou en remplacement.

Fiabilité

(Pour les clients Enterprise) N’hésitez pas à contacter votre directeur de compte si vous avez des questions.

Les accords de niveau de service (SLA) pour le traitement prioritaire seront traités de la même manière que ceux de l’offre Scale. Des crédits de service seront accordés si ces SLA ne sont pas respectés pour les clients disposant d’un contrat Enterprise sur une période donnée.

Politiques

La limite actuelle pour le traitement prioritaire est définie à au moins 1 million de jetons par minute (JPM), avec une augmentation du trafic supérieure à 50 % en moins de 15 minutes.

Les demandes traitées par le niveau de service standard seront facturées au tarif standard et ne sont pas prises en compte dans les objectifs de niveau de service (SLO) du traitement prioritaire.

Les demandes traitées par le niveau de service Standard fourniront une réponse avec la mention service_tier="Default".

Bonnes pratiques pour rester dans les limites de montée en charge

Augmentez progressivement le trafic lors d’un changement de modèle. Par exemple, si votre application passe d’un instantané précédent à un nouvel instantané, utilisez un indicateur de fonctionnalité pour faire basculer le trafic sur quelques heures plutôt qu’en une seule fois.
Évitez d’exécuter des traitements sur de grandes quantités de données ou des tâches asynchrones sur le traitement prioritaire. Ces tâches peuvent faire augmenter le trafic très rapidement et n’ont souvent pas besoin des performances améliorées du traitement prioritaire.
Si vous atteignez régulièrement les limites de montée en charge, envisagez d’opter pour l’offre Scale, en complément ou en remplacement.

Traitement prioritaire pour les clients API

Comment ça marche ?

Limites

Tarification

(Pour les clients Enterprise) Comment cette option interagit-elle avec l’offre Scale ?

(Pour les clients Enterprise) Puis-je orienter automatiquement mon trafic vers le traitement prioritaire lorsque je dépasse les limites de l’offre Scale ?

(Pour les clients Enterprise) Mon engagement annuel est-il lié à un mode de traitement spécifique ?

Puis-je encore bénéficier d’une réduction sur les jetons d’entrée mis en cache ?

Comment voir mon utilisation et mes dépenses liées au traitement prioritaire ?

Modèles

Le traitement prioritaire est-il disponible pour les demandes à long contexte, les modèles ajustés, les intégrations, etc. ?

Comment les autres types de requêtes fonctionnent-elles avec le traitement prioritaire ?

Les futurs modèles seront-ils pris en charge ?