Clients API : l’offre Scale
Cette offre est disponible pour les clients Enterprise. Veuillez contacter notre équipe commerciale pour en savoir plus. Pour bénéficier de la même latence premium et de la même fiabilité avec une facturation à l’usage flexible consultez Traitement prioritaire.
Avec l’offre Scale, vous pouvez acheter, en amont, un certain nombre de tokens d’entrée et de sortie API par minute (appelés « unités de token ») pour accéder à un instantané spécifique du modèle. Chaque unité de token est facturée sur une base minimale de 30 jours. D’autres modèles pourront être ajoutés en fonction de l’intérêt des clients.
Lorsque vous choisissez l’offre Scale, vous accédez aux avantages suivants.
- Latence prévisible : l’offre Scale est conçue pour générer des tokens plus rapidement et à une vitesse plus constante que le service de tarification à l’usage (« pay as you go », PAYG), même en période de forte demande.
- Évolutivité illimitée : chaque achat de quotas avec l’offre Scale est automatiquement ajouté à vos limites de débit afin que vous puissiez monter en charge en toute sérénité.
- Fiabilité accrue : Le trafic de l’offre Scale offre un SLA de disponibilité de 99,9 % et un accès prioritaire aux ressources de calcul.
| Jetons d’entrée | Jetons de sortie | SLA de disponibilité | SLA de latence | |
|---|---|---|---|---|
| GPT-5.5 | 50 000 jetons par minute 750,00 $US par unité/jour | N/A3 | 99,9 % | 99 % > 100 jetons par seconde2 |
| GPT-5.4 mini | 50 000 jetons par minute 100,00 $US par unité/jour | N/A3 | 99,9 % | 99 % > 100 jetons par seconde2 |
GPT-5.4 hors requêtes à long contexte4 | 50 000 jetons par minute 300,00 $US par unité/jour | N/A3 | 99,9 % | 99 % > 50 jetons par seconde2 |
| GPT-5.2 | 25 000 jetons par minute 105,00 $US par unité/jour | 2 500 jetons par minute 84,00 $US par unité/jour | 99,9 % | 99 % > 50 jetons par seconde2 |
| GPT-5.1 | 25 000 jetons par minute 75,00 $US par unité/jour | 2 500 jetons par minute 60,00 $US par unité/jour | 99,9 % | 99 % > 50 jetons par seconde2 |
| GPT-5 | 25 000 jetons par minute 75,00 $US par unité/jour | 2 500 jetons par minute 60,00 $US par unité/jour | 99,9 % | 99 % > 50 jetons par seconde2 |
| GPT-5 mini | 500 000 jetons par minute 275,00 $US par unité/jour | 50 000 jetons par minute 220,00 $US par unité/jour | 99,9 % | 99 % > 80 jetons par seconde2 |
GPT-4.1 hors requêtes à long contexte1 | 30 000 jetons par minute 110,00 $US par unité/jour | 2 500 jetons par minute 36,00 $US par unité/jour | 99,9 % | 99 % > 80 jetons par seconde2 |
GPT-4.1 mini hors requêtes à long contexte1 | 500 000 jetons par minute 450,00 $US par unité/jour | 50 000 jetons par minute 175,00 $US par unité/jour | 99,9 % | 99 % > 90 jetons par seconde2 |
GPT-4.1 nano hors requêtes à long contexte1 | 500 000 jetons par minute 110,00 $US par unité/jour | 50 000 jetons par minute 40,00 $US par unité/jour | 99,9 % | 99 % > 100 jetons par seconde2 |
| GPT-4.1 fine tuning | 30 000 jetons par minute 165,00 $US par unité/jour | 2 500 jetons par minute 36,00 $US par unité/jour | 99,9 % | 99 % > 80 jetons par seconde2 |
| GPT-4.1 mini fine tuning | 500 000 jetons par minute 900,00 $US par unité/jour | 50 000 jetons par minute 175,00 $US par unité/jour | 99,9 % | 99 % > 90 jetons par seconde2 |
| o3 | 25 000 jetons par minute 75,00 $US par unité/jour | 5 000 jetons par minute 60,00 $US par unité/jour | 99,9 % | 99 % > 80 jetons par seconde2 |
| o4-mini | 30 000 jetons par minute 50,00 $US par unité/jour | 5 000 jetons par minute 32,50 $US par unité/jour | 99,9 % | 99 % > 90 jetons par seconde2 |
| GPT-4o | 30 000 jetons par minute 124,59 $US par unité/jour | 2 500 jetons par minute 39,34 $US par unité/jour | 99,9 % | 99 % > 80 jetons par seconde2 |
| GPT-4o mini | 500 000 jetons par minute 114,75 $US par unité/jour | 50 000 jetons par minute 49,18 $US par unité/jour | 99,9 % | 99 % > 90 jetons par seconde2 |
| GPT-4o mini fine tuning | 500 000 jetons par minute 229,50 $US par unité/jour | 50 000 jetons par minute 98,36 $US par unité/jour | 99,9 % | 99 % > 90 jetons par seconde2 |
| o1 | 5 000 jetons par minute 163,93 $US par unité/jour | 1 000 jetons par minute 131,15 $US par unité/jour | 99,9 % | 99 % > 80 jetons par seconde2 |
| o3-mini | 30 000 jetons par minute 78,69 $US par unité/jour | 5 000 jetons par minute 52,46 $US par unité/jour | 99,9 % | 99 % > 90 jetons par seconde2 |
Comment ça marche
Avec l’offre Scale, vous pouvez acheter des unités de token d’entrée et de sortie. Par exemple, avec GPT‑4.1, chaque unité d’entrée coûte 110 $ par jour et donne droit à 30 000 tokens d’entrée par minute. Chaque unité de sortie coûte 36 $ par jour et donne droit à 2 500 tokens de sortie par minute. Chaque unité de token est facturée sur une base minimale de 30 jours.
Pour plus d’informations sur l’offre Scale et la mise en cache des prompts, consultez la FAQ ci-dessous.
Avec GPT‑5.4, vous achetez un volume combiné de tokens d’entrée et de sortie par minute. Cela vous offre une plus grande flexibilité et supprime la nécessité de prévoir votre ratio de tokens d’entrée et de sortie. Lorsque vous utilisez l’offre Scale, nous imputons les tokens sur votre volume de tokens combinés comme suit :
- Les tokens d’entrée comptent pour 1
- Les tokens d’entrée mis en mémoire cache suivent la mise en mémoire cache propre à chaque modèle, comme indiqué ci-dessous dans la section FAQ.
- Les tokens de sortie sont comptabilisés en fonction du ratio de prix PayG entre les tokens de sortie et les tokens d’entrée pour le modèle. Par exemple, avec GPT‑5.4, un token de sortie compte pour 6.


