API のお客様を対象とした優先処理

優先処理は、柔軟な従量課金で利用でき、信頼性の高い高速パフォーマンスを提供します。

優先処理を選択すると、次のメリットが得られます。

予測可能な低レイテンシ：混雑時でも、優先処理は標準処理よりも高速かつ安定した速度でトークンを生成します。
使いやすい柔軟性：優先処理は標準処理と同様に、事前のプロビジョニングを必要とせず、柔軟な従量課金で利用できます。

	100万入力トークンあたりの料金	（キャッシュされた）100万入力トークンあたりの料金	100万出力トークンあたりの料金	稼働率の SLA³	レイテンシ SLA³
GPT-5.5 long-context を除く¹	$12.50	$1.250	$75.00	99.9%	99% > 1秒あたり50トークン²
GPT-5.4 mini long-context を除く¹	$1.50	$0.150	$9.00	99.9%	99% > 1秒あたり100トークン²
GPT-5.4 long-context を除く¹	$5.00	$0.500	$30.00	99.9%	99% > 1秒あたり50トークン²
GPT-5.2 long-context を除く¹	$3.50	$0.350	$28.00	99.9%	99% > 1秒あたり50トークン²
GPT-5.1 long-context を除く¹	$2.50	$0.250	$20.00	99.9%	99% > 1秒あたり50トークン²
GPT-5 long-context を除く¹	$2.50	$0.250	$20.00	99.9%	99% > 1秒あたり50トークン²
GPT-5 mini long-context を除く¹	$0.45	$0.045	$3.60	99.9%	99% > 1秒あたり80トークン²
GPT-5.1 codex long-context を除く¹	$2.50	$0.250	$20.00	99.9%	99% > 1秒あたり50トークン²
GPT-5 codex long-context を除く¹	$2.50	$0.250	$20.00	99.9%	99% > 1秒あたり50トークン²
GPT-4.1 long-context を除く¹	$3.50	$0.875	$14.00	99.9%	99% > 1秒あたり80トークン²
GPT-4.1 mini long-context を除く¹	$0.70	$0.175	$2.80	99.9%	99% > 1秒あたり90トークン²
GPT-4.1 nano long-context を除く¹	$0.20	$0.050	$0.80	99.9%	99% > 1秒あたり100トークン²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	$4.25	$2.125	$17.00	99.9%	99% > 1秒あたり80トークン²
gpt-4o-2024-05-13	$8.75	—	$26.25	99.9%	99% > 1秒あたり80トークン²
GPT-4o mini	$0.25	$0.125	$1.00	99.9%	99% > 1秒あたり90トークン²
o3	$3.50	$0.875	$14.00	99.9%	99% > 1秒あたり80トークン²
o4-mini	$2.00	$0.500	$8.00	99.9%	99% > 1秒あたり90トークン²

1128,000以上のプロンプトトークンでの推定リクエスト

2p50リクエストのレイテンシ（5分あたり）として計算p50リクエストのレイテンシ（1分あたり）として計算されるレイテンシ SLA を含む既存のエンタープライズ契約を締結しているお客様については、従来の SLA も引き続き適用されます。

3これは、Enterprise のお客様にのみ該当します

仕組み

お客様は、既存の service_tier パラメーターで service_tier = "priority" を指定することで、リクエスト単位でトラフィックを優先処理に振り向けることができます。

優先処理で処理されたトークンは、標準処理の料金より高いプレミアム価格で、トークン単位の課金となります。

リクエスト単位で設定できるほか、プロジェクト設定で、「Default Service Tier: Priority（デフォルトのサービスティア：優先）」を選択することで、プロジェクトをデフォルトで優先に設定できます。リクエスト単位での上書きも可能です。

制限事項

優先処理のレート上限は、他のサービスティアと共有されます。
まれに、1分あたりの優先処理トークン数が急増すると、ランプレート上限に達する場合があります。ランプレート上限を超えた場合、追加のトラフィックは標準処理に切り替えられることがあります。

料金

優先処理で処理されたトークンを確認するには、使用状況ダッシュボードで「Chat Completions（チャット生成）」または「Responses（レスポンス）」を選択し、「Group by Service Tier（サービスティア別グループ）」を選択してください。

優先処理の費用を確認するには、使用状況ダッシュボードで「Group by Line Item（ライン項目別グループ）」を選択してください。

モデル

レート上限

優先処理は、すべてのお客様に安定した高いパフォーマンスを維持しつつ、柔軟な従量課金を提供するためにランプレートの上限を設けています。（a）優先処理のパフォーマンスが低下しており、かつ (b) お客様のトラフィックが急激に増加している場合、一部の優先リクエストが標準処理に切り替えられることがあります。

現在の優先処理におけるランプレートの上限は、TPM が100万以上で、15分未満の間に Tokens Per Minute が50%以上増加する状態と定義されています。

標準サービスティアで処理されたリクエストは標準の料金が適用され、優先処理のサービスレベル目標の対象にはなりません。

標準サービスティアで処理されたリクエストには、レスポンスに service_tier="Default" が含まれます。

ランプレート上限内に収めるためのベストプラクティス

モデルを切り替える際は、トラフィックを段階的に増やしてください。たとえば、アプリケーションを以前のスナップショットから新しいものへ移行する場合、すべてを一度に切り替えるのではなく、数時間かけて段階的に切り替えるための機能フラグを使用することをお勧めします。
大規模なデータ処理や非同期ジョブの実行には優先処理を使用しないようにしてください。これらのジョブはトラフィックを急速に増加させる可能性があり、優先処理の高いパフォーマンスを必要としない場合が多いためです。
ランプレート上限に頻繁に達する場合は、スケールティアの容量を追加で、または代わりに購入することを検討してください。

信頼性

ポリシー

現在の優先処理におけるランプレートの上限は、TPM が100万以上で、15分未満の間に Tokens Per Minute が50%以上増加する状態と定義されています。

標準サービスティアで処理されたリクエストは標準の料金が適用され、優先処理のサービスレベル目標の対象にはなりません。

標準サービスティアで処理されたリクエストには、レスポンスに service_tier="Default" が含まれます。

ランプレート上限内に収めるためのベストプラクティス

モデルを切り替える際は、トラフィックを段階的に増やしてください。たとえば、アプリケーションを以前のスナップショットから新しいものへ移行する場合、すべてを一度に切り替えるのではなく、数時間かけて段階的に切り替えるための機能フラグを使用することをお勧めします。
大規模なデータ処理や非同期ジョブの実行には優先処理を使用しないようにしてください。これらのジョブはトラフィックを急速に増加させる可能性があり、優先処理の高いパフォーマンスを必要としない場合が多いためです。
ランプレート上限に頻繁に達する場合は、スケールティアの容量を追加で、または代わりに購入することを検討してください。

API のお客様を対象とした優先処理

仕組み

制限事項

料金

（Enterprise のお客様向け）スケールティアとはどのように連動しますか？

（Enterprise のお客様向け）スケールティアのスピルオーバーしたトラフィックを自動的に優先処理に送ることはできますか？

（Enterprise のお客様向け）年間コミットメントは特定の処理モードに紐づいていますか？

キャッシュされた入力トークンには引き続き割引が適用されますか？

優先処理の使用量と費用はどのように確認できますか？

モデル

長いコンテキスト、ファインチューニング済みモデル、Embeddings（埋め込み）などでも優先処理を利用できますか？

他のモダリティは優先処理とどのように連携しますか？

今後のモデルも対応予定ですか？