Traitement prioritaire pour les clients API
Le traitement prioritaire allie la fiabilité, les performances haut débit et la flexibilité du paiement à l’utilisation.
En optant pour le traitement prioritaire, vous bénéficiez de nombreux avantages :
- Latence faible et prévisible : le traitement prioritaire génère des jetons plus rapidement et à une vitesse plus constante que le service de traitement standard, même en période de forte demande.
- Flexibilité d’utilisation : comme le traitement standard, le traitement prioritaire est accessible de manière flexible, sur une base de facturation à l’usage, sans nécessiter de capacité provisionnée à l’avance.
| Prix pour 1 000 000 jetons d’entrée | Prix pour 1 000 000 de jetons d’entrée (mis en mémoire cache) | Prix pour 1 000 000 de jetons de sortie | SLA de disponibilité3 | SLA de latence3 | |
|---|---|---|---|---|---|
GPT-5.5 hors requêtes à long contexte1 | 12,50 $US | 1,250 $US | 75,00 $US | 99,9 % | 99 % > 50 jetons par seconde2 |
GPT-5.4 mini hors requêtes à long contexte1 | 1,50 $US | 0,150 $US | 9,00 $US | 99,9 % | 99 % > 100 jetons par seconde2 |
GPT-5.4 hors requêtes à long contexte1 | 5,00 $US | 0,500 $US | 30,00 $US | 99,9 % | 99 % > 50 jetons par seconde2 |
GPT-5.2 hors requêtes à long contexte1 | 3,50 $US | 0,350 $US | 28,00 $US | 99,9 % | 99 % > 50 jetons par seconde2 |
GPT-5.1 hors requêtes à long contexte1 | 2,50 $US | 0,250 $US | 20,00 $US | 99,9 % | 99 % > 50 jetons par seconde2 |
GPT-5 hors requêtes à long contexte1 | 2,50 $US | 0,250 $US | 20,00 $US | 99,9 % | 99 % > 50 jetons par seconde2 |
GPT-5 mini hors requêtes à long contexte1 | 0,45 $US | 0,045 $US | 3,60 $US | 99,9 % | 99 % > 80 jetons par seconde2 |
GPT-5.1 codex hors requêtes à long contexte1 | 2,50 $US | 0,250 $US | 20,00 $US | 99,9 % | 99 % > 50 jetons par seconde2 |
GPT-5 codex hors requêtes à long contexte1 | 2,50 $US | 0,250 $US | 20,00 $US | 99,9 % | 99 % > 50 jetons par seconde2 |
GPT-4.1 hors requêtes à long contexte1 | 3,50 $US | 0,875 $US | 14,00 $US | 99,9 % | 99 % > 80 jetons par seconde2 |
GPT-4.1 mini hors requêtes à long contexte1 | 0,70 $US | 0,175 $US | 2,80 $US | 99,9 % | 99 % > 90 jetons par seconde2 |
GPT-4.1 nano hors requêtes à long contexte1 | 0,20 $US | 0,050 $US | 0,80 $US | 99,9 % | 99 % > 100 jetons par seconde2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | 4,25 $US | 2,125 $US | 17,00 $US | 99,9 % | 99 % > 80 jetons par seconde2 |
gpt-4o-2024-05-13 | 8,75 $US | — | 26,25 $US | 99,9 % | 99 % > 80 jetons par seconde2 |
GPT-4o mini | 0,25 $US | 0,125 $US | 1,00 $US | 99,9 % | 99 % > 90 jetons par seconde2 |
o3 | 3,50 $US | 0,875 $US | 14,00 $US | 99,9 % | 99 % > 80 jetons par seconde2 |
o4-mini | 2,00 $US | 0,500 $US | 8,00 $US | 99,9 % | 99 % > 90 jetons par seconde2 |
Comment ça marche ?
Les clients peuvent orienter le trafic vers le traitement prioritaire à la demande en utilisant le paramètre service_tier existant, avec l’option service_tier = “priority”.
Les jetons faisant l’objet d’un traitement prioritaire seront facturés au jeton, à un prix majoré par rapport à celui des jetons associés à un traitement standard.
En plus de sa configuration au niveau de la requête, vous pouvez aussi configurer un projet pour utiliser Priorité par défaut dans les paramètres du projet → Niveau de service par défaut : Priorité. Vous pouvez toujours le modifier pour chaque demande.
Limites
- Les limites de débit du traitement prioritaire sont partagées avec les autres offres.
- Dans de rares cas, une augmentation rapide du nombre de jetons par minute dans le cadre du traitement prioritaire peut entraîner un dépassement des limites de montée en charge. Ce dépassement peut entraîner une bascule du trafic additionnel vers le traitement standard.