Passer au contenu principal
OpenAI

Traitement prioritaire pour les clients API

Le traitement prioritaire allie la fiabilité, les performances haut débit et la flexibilité du paiement à l’utilisation.

En optant pour le traitement prioritaire, vous bénéficiez de nombreux avantages :

  • Latence faible et prévisible : le traitement prioritaire génère des jetons plus rapidement et à une vitesse plus constante que le service de traitement standard, même en période de forte demande.
  • Flexibilité d’utilisation : comme le traitement standard, le traitement prioritaire est accessible de manière flexible, sur une base de facturation à l’usage, sans nécessiter de capacité provisionnée à l’avance.
Prix pour 1 000 000 jetons d’entréePrix pour 1 000 000 de jetons d’entrée (mis en mémoire cache)Prix pour 1 000 000 de jetons de sortieSLA de disponibilité3SLA de latence3
GPT-5.5
hors requêtes à long contexte1
12,50 $US1,250 $US75,00 $US99,9 %99 % > 50 jetons par seconde2
GPT-5.4 mini
hors requêtes à long contexte1
1,50 $US0,150 $US9,00 $US99,9 %99 % > 100 jetons par seconde2
GPT-5.4
hors requêtes à long contexte1
5,00 $US0,500 $US30,00 $US99,9 %99 % > 50 jetons par seconde2
GPT-5.2
hors requêtes à long contexte1
3,50 $US0,350 $US28,00 $US99,9 %99 % > 50 jetons par seconde2
GPT-5.1
hors requêtes à long contexte1
2,50 $US0,250 $US20,00 $US99,9 %99 % > 50 jetons par seconde2
GPT-5
hors requêtes à long contexte1
2,50 $US0,250 $US20,00 $US99,9 %99 % > 50 jetons par seconde2
GPT-5 mini
hors requêtes à long contexte1
0,45 $US0,045 $US3,60 $US99,9 %99 % > 80 jetons par seconde2
GPT-5.1 codex
hors requêtes à long contexte1
2,50 $US0,250 $US20,00 $US99,9 %99 % > 50 jetons par seconde2
GPT-5 codex
hors requêtes à long contexte1
2,50 $US0,250 $US20,00 $US99,9 %99 % > 50 jetons par seconde2
GPT-4.1
hors requêtes à long contexte1
3,50 $US0,875 $US14,00 $US99,9 %99 % > 80 jetons par seconde2
GPT-4.1 mini
hors requêtes à long contexte1
0,70 $US0,175 $US2,80 $US99,9 %99 % > 90 jetons par seconde2
GPT-4.1 nano
hors requêtes à long contexte1
0,20 $US0,050 $US0,80 $US99,9 %99 % > 100 jetons par seconde2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
4,25 $US2,125 $US17,00 $US99,9 %99 % > 80 jetons par seconde2
gpt-4o-2024-05-13
8,75 $US26,25 $US99,9 %99 % > 80 jetons par seconde2
GPT-4o mini
0,25 $US0,125 $US1,00 $US99,9 %99 % > 90 jetons par seconde2
o3
3,50 $US0,875 $US14,00 $US99,9 %99 % > 80 jetons par seconde2
o4-mini
2,00 $US0,500 $US8,00 $US99,9 %99 % > 90 jetons par seconde2
1Requêtes estimées à plus de 128 000 jetons de prompt
2Latence médiane des requêtes sur une période de 5 minutes Pour les clients ayant des accords d’entreprise existants incluant des SLA de latence calculés sur la latence médiane des requêtes par minute, les SLA précédents restent valables.
3Ne concerne que les clients Enterprise

Comment ça marche ?

Les clients peuvent orienter le trafic vers le traitement prioritaire à la demande en utilisant le paramètre service_tier existant, avec l’option service_tier = “priority”.

Les jetons faisant l’objet d’un traitement prioritaire seront facturés au jeton, à un prix majoré par rapport à celui des jetons associés à un traitement standard. 

En plus de sa configuration au niveau de la requête, vous pouvez aussi configurer un projet pour utiliser Priorité par défaut dans les paramètres du projet → Niveau de service par défaut : Priorité. Vous pouvez toujours le modifier pour chaque demande.

Limites

  • Les limites de débit du traitement prioritaire sont partagées avec les autres offres. 
  • Dans de rares cas, une augmentation rapide du nombre de jetons par minute dans le cadre du traitement prioritaire peut entraîner un dépassement des limites de montée en charge. Ce dépassement peut entraîner une bascule du trafic additionnel vers le traitement standard.

Tarification

Modèles

Limites de débit

Fiabilité

Politiques