API のお客様を対象とした優先処理
優先処理は、柔軟な従量課金で利用でき、信頼性の高い高速パフォーマンスを提供します。
優先処理を選択すると、次のメリットが得られます。
- 予測可能な低レイテンシ:混雑時でも、優先処理は標準処理よりも高速かつ安定した速度でトークンを生成します。
- 使いやすい柔軟性:優先処理は標準処理と同様に、事前のプロビジョニングを必要とせず、柔軟な従量課金で利用できます。
| 100万入力トークンあたりの料金 | (キャッシュされた)100万入力トークンあたりの料金 | 100万出力トークンあたりの料金 | 稼働率の SLA3 | レイテンシ SLA3 | |
|---|---|---|---|---|---|
GPT-5.5 long-context を除く1 | $12.50 | $1.250 | $75.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5.4 mini long-context を除く1 | $1.50 | $0.150 | $9.00 | 99.9% | 99% > 1秒あたり100トークン2 |
GPT-5.4 long-context を除く1 | $5.00 | $0.500 | $30.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5.2 long-context を除く1 | $3.50 | $0.350 | $28.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5.1 long-context を除く1 | $2.50 | $0.250 | $20.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5 long-context を除く1 | $2.50 | $0.250 | $20.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5 mini long-context を除く1 | $0.45 | $0.045 | $3.60 | 99.9% | 99% > 1秒あたり80トークン2 |
GPT-5.1 codex long-context を除く1 | $2.50 | $0.250 | $20.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-5 codex long-context を除く1 | $2.50 | $0.250 | $20.00 | 99.9% | 99% > 1秒あたり50トークン2 |
GPT-4.1 long-context を除く1 | $3.50 | $0.875 | $14.00 | 99.9% | 99% > 1秒あたり80トークン2 |
GPT-4.1 mini long-context を除く1 | $0.70 | $0.175 | $2.80 | 99.9% | 99% > 1秒あたり90トークン2 |
GPT-4.1 nano long-context を除く1 | $0.20 | $0.050 | $0.80 | 99.9% | 99% > 1秒あたり100トークン2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | $4.25 | $2.125 | $17.00 | 99.9% | 99% > 1秒あたり80トークン2 |
gpt-4o-2024-05-13 | $8.75 | — | $26.25 | 99.9% | 99% > 1秒あたり80トークン2 |
GPT-4o mini | $0.25 | $0.125 | $1.00 | 99.9% | 99% > 1秒あたり90トークン2 |
o3 | $3.50 | $0.875 | $14.00 | 99.9% | 99% > 1秒あたり80トークン2 |
o4-mini | $2.00 | $0.500 | $8.00 | 99.9% | 99% > 1秒あたり90トークン2 |
仕組み
お客様は、既存の service_tier パラメーターで service_tier = "priority" を指定することで、リクエスト単位でトラフィックを優先処理に振り向けることができます。
優先処理で処理されたトークンは、標準処理の料金より高いプレミアム価格で、トークン単位の課金となります。
リクエスト単位で設定できるほか、プロジェクト設定で、「Default Service Tier: Priority(デフォルトのサービスティア:優先)」を選択することで、プロジェクトをデフォルトで優先に設定できます。リクエスト単位での上書きも可能です。
制限事項
- 優先処理のレート上限は、他のサービスティアと共有されます。
- まれに、1分あたりの優先処理トークン数が急増すると、ランプレート上限に達する場合があります。ランプレート上限を超えた場合、追加のトラフィックは標準処理に切り替えられることがあります。