Clients API : l’offre Scale

Cette offre est disponible pour les clients Enterprise. Veuillez contacter notre équipe commerciale⁠ pour en savoir plus. Pour bénéficier de la même latence premium et de la même fiabilité avec une facturation à l’usage flexible consultez Traitement prioritaire⁠.

Avec l’offre Scale, vous pouvez acheter, en amont, un certain nombre de tokens d’entrée et de sortie API par minute (appelés « unités de token ») pour accéder à un instantané spécifique du modèle. Chaque unité de token est facturée sur une base minimale de 30 jours. D’autres modèles pourront être ajoutés en fonction de l’intérêt des clients.

Lorsque vous choisissez l’offre Scale, vous accédez aux avantages suivants.

Latence prévisible : l’offre Scale est conçue pour générer des tokens plus rapidement et à une vitesse plus constante que le service de tarification à l’usage (« pay as you go », PAYG), même en période de forte demande.
Évolutivité illimitée : chaque achat de quotas avec l’offre Scale est automatiquement ajouté à vos limites de débit afin que vous puissiez monter en charge en toute sérénité.
Fiabilité accrue : Le trafic de l’offre Scale offre un SLA de disponibilité de 99,9 % et un accès prioritaire aux ressources de calcul.

	Jetons d’entrée	Jetons de sortie	SLA de disponibilité	SLA de latence
GPT-5.5	50 000 jetons par minute 750,00 $US par unité/jour	N/A³	99,9 %	99 % > 100 jetons par seconde²
GPT-5.4 mini	50 000 jetons par minute 100,00 $US par unité/jour	N/A³	99,9 %	99 % > 100 jetons par seconde²
GPT-5.4 hors requêtes à long contexte⁴	50 000 jetons par minute 300,00 $US par unité/jour	N/A³	99,9 %	99 % > 50 jetons par seconde²
GPT-5.2	25 000 jetons par minute 105,00 $US par unité/jour	2 500 jetons par minute 84,00 $US par unité/jour	99,9 %	99 % > 50 jetons par seconde²
GPT-5.1	25 000 jetons par minute 75,00 $US par unité/jour	2 500 jetons par minute 60,00 $US par unité/jour	99,9 %	99 % > 50 jetons par seconde²
GPT-5	25 000 jetons par minute 75,00 $US par unité/jour	2 500 jetons par minute 60,00 $US par unité/jour	99,9 %	99 % > 50 jetons par seconde²
GPT-5 mini	500 000 jetons par minute 275,00 $US par unité/jour	50 000 jetons par minute 220,00 $US par unité/jour	99,9 %	99 % > 80 jetons par seconde²
GPT-4.1 hors requêtes à long contexte¹	30 000 jetons par minute 110,00 $US par unité/jour	2 500 jetons par minute 36,00 $US par unité/jour	99,9 %	99 % > 80 jetons par seconde²
GPT-4.1 mini hors requêtes à long contexte¹	500 000 jetons par minute 450,00 $US par unité/jour	50 000 jetons par minute 175,00 $US par unité/jour	99,9 %	99 % > 90 jetons par seconde²
GPT-4.1 nano hors requêtes à long contexte¹	500 000 jetons par minute 110,00 $US par unité/jour	50 000 jetons par minute 40,00 $US par unité/jour	99,9 %	99 % > 100 jetons par seconde²
GPT-4.1 fine tuning	30 000 jetons par minute 165,00 $US par unité/jour	2 500 jetons par minute 36,00 $US par unité/jour	99,9 %	99 % > 80 jetons par seconde²
GPT-4.1 mini fine tuning	500 000 jetons par minute 900,00 $US par unité/jour	50 000 jetons par minute 175,00 $US par unité/jour	99,9 %	99 % > 90 jetons par seconde²
o3	25 000 jetons par minute 75,00 $US par unité/jour	5 000 jetons par minute 60,00 $US par unité/jour	99,9 %	99 % > 80 jetons par seconde²
o4-mini	30 000 jetons par minute 50,00 $US par unité/jour	5 000 jetons par minute 32,50 $US par unité/jour	99,9 %	99 % > 90 jetons par seconde²
GPT-4o	30 000 jetons par minute 124,59 $US par unité/jour	2 500 jetons par minute 39,34 $US par unité/jour	99,9 %	99 % > 80 jetons par seconde²
GPT-4o mini	500 000 jetons par minute 114,75 $US par unité/jour	50 000 jetons par minute 49,18 $US par unité/jour	99,9 %	99 % > 90 jetons par seconde²
GPT-4o mini fine tuning	500 000 jetons par minute 229,50 $US par unité/jour	50 000 jetons par minute 98,36 $US par unité/jour	99,9 %	99 % > 90 jetons par seconde²
o1	5 000 jetons par minute 163,93 $US par unité/jour	1 000 jetons par minute 131,15 $US par unité/jour	99,9 %	99 % > 80 jetons par seconde²
o3-mini	30 000 jetons par minute 78,69 $US par unité/jour	5 000 jetons par minute 52,46 $US par unité/jour	99,9 %	99 % > 90 jetons par seconde²

1Requêtes estimées à plus de 128 000 jetons de prompt

2Latence médiane des requêtes sur une période de 5 minutes Pour les clients ayant des accords d’entreprise existants incluant des SLA de latence calculés sur la latence médiane des requêtes par minute, les SLA précédents restent valables.

3Avec GPT-5.4, l'offre Scale s'achète sous forme de lot de tokens d'entrée et de sortie combinés par minute. L'utilisation des tokens d'entrée, des tokens d'entrée mis en cache et des tokens de sortie est décomptée de ce lot combiné à des taux différents. Consultez la section « Comment ça marche » ci-dessous.

4Un long contexte est supérieur à 272 000

Comment ça marche

Avec l’offre Scale, vous pouvez acheter des unités de token d’entrée et de sortie. Par exemple, avec GPT‑4.1, chaque unité d’entrée coûte 110 $ par jour et donne droit à 30 000 tokens d’entrée par minute. Chaque unité de sortie coûte 36 $ par jour et donne droit à 2 500 tokens de sortie par minute. Chaque unité de token est facturée sur une base minimale de 30 jours.

Pour plus d’informations sur l’offre Scale et la mise en cache des prompts, consultez la FAQ ci-dessous.

Avec GPT‑5.4, vous achetez un volume combiné de tokens d’entrée et de sortie par minute. Cela vous offre une plus grande flexibilité et supprime la nécessité de prévoir votre ratio de tokens d’entrée et de sortie. Lorsque vous utilisez l’offre Scale, nous imputons les tokens sur votre volume de tokens combinés comme suit :

Les tokens d’entrée comptent pour 1
Les tokens d’entrée mis en mémoire cache suivent la mise en mémoire cache propre à chaque modèle, comme indiqué ci-dessous dans la section FAQ.
Les tokens de sortie sont comptabilisés en fonction du ratio de prix PayG entre les tokens de sortie et les tokens d’entrée pour le modèle. Par exemple, avec GPT‑5.4, un token de sortie compte pour 6.

Tarification

Pour des raisons de facturation, les tokens par minute (TPM) sont calculés en faisant la moyenne du nombre de tokens utilisés par tranches de 15 minutes alignées sur l’heure (par exemple : 3 h à 3 h 15, 3 h 15 à 3 h 30, etc.). Si le total des tokens utilisés au cours d’une période de 15 minutes est inférieur à votre offre Scale, ils ne seront pas facturés. Par exemple, si vous vous procurez l’offre Scale pour GPT‑4o, prévoyant 30 000 tokens par minute, vous pouvez utiliser jusqu’à 450 000 tokens toutes les 15 minutes, sans frais supplémentaires. En revanche, tous les tokens utilisés au-delà de cette limite sont facturés au tarif de tarification à l’usage (PAYG).

Unités de tokens et limites de débit

Pour consulter vos limites de débit actuelles, rendez-vous sur la page des paramètres⁠⁠(ouverture dans une nouvelle fenêtre). Lorsque vous achetez des unités de token pour l’offre Scale, vos limites de débit pour ce modèle augmenteront automatiquement en fonction de votre achat. Lorsque vous utilisez le modèle, les requêtes seront, dans un premier temps, traitées en utilisant votre quota Scale (plus rapide). Si vous dépassez votre quota, les requêtes additionnelles seront traitées par le service de traitement standard classique. Si vous dépassez la limite d’utilisation totale en une minute sur l’offre Scale ainsi que les limites du traitement standard habituel, alors les requêtes suivantes seront rejetées comme d’habitude avec un code d’erreur 429.

Oui, vous pouvez utiliser le paramètre « service_tier » dans l’API Chat Completions. Si vous choisissez « auto », le quota de l’offre Scale sera utilisé, sous réserve de disponibilité. Si vous choisissez « default », le quota de traitement standard sera utilisé. La réponse inclut également le paramètre « service_tier » qui indique le type de service utilisé pour traiter la requête. Les valeurs sont soit « scale » soit « default ».

Nous offrons différentes réductions sur les tokens d’entrée mis en mémoire cache (50 %, 75 % ou 90 %), selon le modèle. Si vous envoyez 50 000 TPM sous forme de tokens d’entrée mis en mémoire cache sur un modèle (bénéficiant d’une réduction de 50 %), la quantité réelle de tokens utilisés sera alors de 25 000 TPM. Si vous envoyez 50 000 TPM sous forme de tokens d’entrée mis en mémoire cache sur un modèle (bénéficiant d’une réduction de 75 %), ces tokens ne comptent que pour 12 500 TPM dans votre quota. En savoir plus sur la mise en cache des prompts ↗⁠(ouverture dans une nouvelle fenêtre)

Clients API : l’offre Scale

Comment ça marche

Tarification

Comment fonctionnent l’achat et le provisionnement de l’offre Scale ?

Quand commence le cycle de facturation ?

Comment sont calculés les dépassements de la facturation à l’usage lorsque j’utilise l’offre Scale ?

Si je m’engage à l’année, mes dépenses doivent-elles être appliquées à l’offre Scale ?

Mon engagement annuel est-il lié à une offre spécifique ?

Si j’ai déjà la réservation de capacité, comment puis-je utiliser GPT-4o avec l’offre Scale ?

Unités de tokens et limites de débit

Comment acheter des unités de token pour l’offre Scale ?

Comment connaître ma quantité de tokens par minute (TPM) ?

Comment connaître mes limites de débit totales ?

Puis-je choisir les requêtes prises en charge avec l’offre Scale ?

Comment fonctionne l’offre Scale avec la mise en cache du prompt ?

Modèles

Comment fonctionnent les autres modalités avec l’offre Scale ?

L’offre Scale prend-elle en charge le réglage fin ?

Puis-je orienter automatiquement mon trafic vers le Traitement prioritaire lorsque je dépasse les limites de l’offre Scale ?

Fiabilité

Que se passe-t-il en cas de non-respect des SLA de latence et de disponibilité ?

Politiques

Comment fonctionne la politique de non-conservation des données (ZDR) pour l’offre Scale ?