Passer au contenu principal
OpenAI

Clients API : l’offre Scale

Cette offre est disponible pour les clients Enterprise. Veuillez contacter notre équipe commerciale⁠ pour en savoir plus. Pour bénéficier de la même latence premium et de la même fiabilité avec une facturation à l’usage flexible consultez Traitement prioritaire.

Avec l’offre Scale, vous pouvez acheter, en amont, un certain nombre de tokens d’entrée et de sortie API par minute (appelés « unités de token ») pour accéder à un instantané spécifique du modèle. Chaque unité de token est facturée sur une base minimale de 30 jours. D’autres modèles pourront être ajoutés en fonction de l’intérêt des clients.

Lorsque vous choisissez l’offre Scale, vous accédez aux avantages suivants.

  • Latence prévisible : l’offre Scale est conçue pour générer des tokens plus rapidement et à une vitesse plus constante que le service de tarification à l’usage (« pay as you go », PAYG), même en période de forte demande.
  • Évolutivité illimitée : chaque achat de quotas avec l’offre Scale est automatiquement ajouté à vos limites de débit afin que vous puissiez monter en charge en toute sérénité. 
  • Fiabilité accrue : Le trafic de l’offre Scale offre un SLA de disponibilité de 99,9 % et un accès prioritaire aux ressources de calcul.
Jetons d’entréeJetons de sortieSLA de disponibilitéSLA de latence
GPT-5.550 000 jetons par minute
750,00 $US par unité/jour
N/A399,9 %99 % > 100 jetons par seconde2
GPT-5.4 mini50 000 jetons par minute
100,00 $US par unité/jour
N/A399,9 %99 % > 100 jetons par seconde2
GPT-5.4
hors requêtes à long contexte4
50 000 jetons par minute
300,00 $US par unité/jour
N/A399,9 %99 % > 50 jetons par seconde2
GPT-5.225 000 jetons par minute
105,00 $US par unité/jour
2 500 jetons par minute
84,00 $US par unité/jour
99,9 %99 % > 50 jetons par seconde2
GPT-5.125 000 jetons par minute
75,00 $US par unité/jour
2 500 jetons par minute
60,00 $US par unité/jour
99,9 %99 % > 50 jetons par seconde2
GPT-525 000 jetons par minute
75,00 $US par unité/jour
2 500 jetons par minute
60,00 $US par unité/jour
99,9 %99 % > 50 jetons par seconde2
GPT-5 mini500 000 jetons par minute
275,00 $US par unité/jour
50 000 jetons par minute
220,00 $US par unité/jour
99,9 %99 % > 80 jetons par seconde2
GPT-4.1
hors requêtes à long contexte1
30 000 jetons par minute
110,00 $US par unité/jour
2 500 jetons par minute
36,00 $US par unité/jour
99,9 %99 % > 80 jetons par seconde2
GPT-4.1 mini
hors requêtes à long contexte1
500 000 jetons par minute
450,00 $US par unité/jour
50 000 jetons par minute
175,00 $US par unité/jour
99,9 %99 % > 90 jetons par seconde2
GPT-4.1 nano
hors requêtes à long contexte1
500 000 jetons par minute
110,00 $US par unité/jour
50 000 jetons par minute
40,00 $US par unité/jour
99,9 %99 % > 100 jetons par seconde2
GPT-4.1 fine tuning30 000 jetons par minute
165,00 $US par unité/jour
2 500 jetons par minute
36,00 $US par unité/jour
99,9 %99 % > 80 jetons par seconde2
GPT-4.1 mini fine tuning500 000 jetons par minute
900,00 $US par unité/jour
50 000 jetons par minute
175,00 $US par unité/jour
99,9 %99 % > 90 jetons par seconde2
o325 000 jetons par minute
75,00 $US par unité/jour
5 000 jetons par minute
60,00 $US par unité/jour
99,9 %99 % > 80 jetons par seconde2
o4-mini30 000 jetons par minute
50,00 $US par unité/jour
5 000 jetons par minute
32,50 $US par unité/jour
99,9 %99 % > 90 jetons par seconde2
GPT-4o30 000 jetons par minute
124,59 $US par unité/jour
2 500 jetons par minute
39,34 $US par unité/jour
99,9 %99 % > 80 jetons par seconde2
GPT-4o mini500 000 jetons par minute
114,75 $US par unité/jour
50 000 jetons par minute
49,18 $US par unité/jour
99,9 %99 % > 90 jetons par seconde2
GPT-4o mini fine tuning500 000 jetons par minute
229,50 $US par unité/jour
50 000 jetons par minute
98,36 $US par unité/jour
99,9 %99 % > 90 jetons par seconde2
o15 000 jetons par minute
163,93 $US par unité/jour
1 000 jetons par minute
131,15 $US par unité/jour
99,9 %99 % > 80 jetons par seconde2
o3-mini30 000 jetons par minute
78,69 $US par unité/jour
5 000 jetons par minute
52,46 $US par unité/jour
99,9 %99 % > 90 jetons par seconde2
1Requêtes estimées à plus de 128 000 jetons de prompt
2Latence médiane des requêtes sur une période de 5 minutes Pour les clients ayant des accords d’entreprise existants incluant des SLA de latence calculés sur la latence médiane des requêtes par minute, les SLA précédents restent valables.
3Avec GPT-5.4, l'offre Scale s'achète sous forme de lot de tokens d'entrée et de sortie combinés par minute. L'utilisation des tokens d'entrée, des tokens d'entrée mis en cache et des tokens de sortie est décomptée de ce lot combiné à des taux différents. Consultez la section « Comment ça marche » ci-dessous.
4Un long contexte est supérieur à 272 000

Comment ça marche

Avec l’offre Scale, vous pouvez acheter des unités de token d’entrée et de sortie. Par exemple, avec GPT‑4.1, chaque unité d’entrée coûte 110 $ par jour et donne droit à 30 000 tokens d’entrée par minute. Chaque unité de sortie coûte 36 $ par jour et donne droit à 2 500 tokens de sortie par minute. Chaque unité de token est facturée sur une base minimale de 30 jours.

Pour plus d’informations sur l’offre Scale et la mise en cache des prompts, consultez la FAQ ci-dessous.

Avec GPT‑5.4, vous achetez un volume combiné de tokens d’entrée et de sortie par minute. Cela vous offre une plus grande flexibilité et supprime la nécessité de prévoir votre ratio de tokens d’entrée et de sortie. Lorsque vous utilisez l’offre Scale, nous imputons les tokens sur votre volume de tokens combinés comme suit :

  • Les tokens d’entrée comptent pour 1
  • Les tokens d’entrée mis en mémoire cache suivent la mise en mémoire cache propre à chaque modèle, comme indiqué ci-dessous dans la section FAQ.
  • Les tokens de sortie sont comptabilisés en fonction du ratio de prix PayG entre les tokens de sortie et les tokens d’entrée pour le modèle. Par exemple, avec GPT‑5.4, un token de sortie compte pour 6.
Jetons par minuteTPMPaiement en fonction des jetons utilisés19 jetons/s99,5 %Facturation à l’usageLatence moy.DisponibilitéOffreEntréeSortieAvantChaque mois19 jetons/s25 jetons/s99,5 %99,9 %Facturation à l’usageOffre ScaleLatence moy.DisponibilitéOffreEntrée3 unitésSortie2 unitésAprès

Tarification

Unités de tokens et limites de débit

Modèles

Fiabilité

Politiques