跳到主要內容
OpenAI

API 客戶專享優先處理服務

優先處理功能高速可靠,並提供按需付費選項,靈活又方便。

選用優先處理功能可以解鎖:

  • 可預期的低延遲:優先處理可加快 Token 生成速度,即使在需求高峰期,生成速度仍比標準處理服務更加穩定。
  • 方便靈活:與標準處理程序一樣,優先處理程序可以按需付費使用,毋須預先部署,彈性方便。
每百萬個輸入詞元價格每百萬個輸入詞元價格(快取)每百萬個輸出詞元價格在線率 SLA3延遲 SLA3
GPT-5.5
長上下文除外1
US$12.50US$1.250US$75.0099.9%99% > 每秒 50 個詞元2
GPT-5.4 mini
長上下文除外1
US$1.50US$0.150US$9.0099.9%99% > 每秒 100 個詞元2
GPT-5.4
長上下文除外1
US$5.00US$0.500US$30.0099.9%99% > 每秒 50 個詞元2
GPT-5.2
長上下文除外1
US$3.50US$0.350US$28.0099.9%99% > 每秒 50 個詞元2
GPT-5.1
長上下文除外1
US$2.50US$0.250US$20.0099.9%99% > 每秒 50 個詞元2
GPT-5
長上下文除外1
US$2.50US$0.250US$20.0099.9%99% > 每秒 50 個詞元2
GPT-5 mini
長上下文除外1
US$0.45US$0.045US$3.6099.9%99% > 每秒 80 個詞元2
GPT-5.1 codex
長上下文除外1
US$2.50US$0.250US$20.0099.9%99% > 每秒 50 個詞元2
GPT-5 codex
長上下文除外1
US$2.50US$0.250US$20.0099.9%99% > 每秒 50 個詞元2
GPT-4.1
長上下文除外1
US$3.50US$0.875US$14.0099.9%99% > 每秒 80 個詞元2
GPT-4.1 mini
長上下文除外1
US$0.70US$0.175US$2.8099.9%99% > 每秒 90 個詞元2
GPT-4.1 nano
長上下文除外1
US$0.20US$0.050US$0.8099.9%99% > 每秒 100 個詞元2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
US$4.25US$2.125US$17.0099.9%99% > 每秒 80 個詞元2
gpt-4o-2024-05-13
US$8.75US$26.2599.9%99% > 每秒 80 個詞元2
GPT-4o mini
US$0.25US$0.125US$1.0099.9%99% > 每秒 90 個詞元2
o3
US$3.50US$0.875US$14.0099.9%99% > 每秒 80 個詞元2
o4-mini
US$2.00US$0.500US$8.0099.9%99% > 每秒 90 個詞元2
1要求估計 > 128K 提示詞元
2按每 5 分鐘 p50 要求延遲計算。如客戶現有企業協議的延遲 SLA 按每分鐘 p50 要求延遲計算,之前的 SLA 亦仍然適用。
3只適用於 Enterprise 顧客

運作方式

每次提出要求前,客戶可透過 service_tier = “priority” 選項設定既有的 service_tier 參數 ,藉此將流量導向優先處理程序。

透過優先處理提供的 Token 將按數目收費,價格略高於標準處理費。 

除了可以在請求層級進行設定外,你亦可以在「項目設定」→「預設服務層級:優先級」中,將項目設為優先級。你仍然可以按個別請求覆寫設定。

限制

  • 優先處理程序的速率限制與其他服務層級一併計算。
  • 在少數情況下,如每分鐘優先處理的詞元數目急速上升,可能會觸發增長速率限制。假如增長速率超出限制,其後的額外流量或會改送至標準處理程序。

收費

模型

速率限制

可靠性

政策