跳至主要內容
OpenAI

API 客戶的優先處理服務

優先處理服務可提供穩定且高速的效能,同時保有按需付費的靈活性。

選擇優先處理服務,可以解鎖:

  • 可預期的低延遲:優先處理服務即使在高峰期間,也能比標準處理服務更快速、更穩定地生成 Token。
  • 靈活彈性:與標準處理相同,優先處理服務也可以透過彈性的按需付費方式使用,無需事先部署。
每一百萬個輸入權杖的費用每一百萬個輸入權杖的費用 (快取)每一百萬個輸出權杖的費用正常運作時間 SLA3延遲 SLA3
GPT-5.5
不支援長段文字記憶力解功能1
US$12.50US$1.250US$75.0099.9%每秒 99% > 50 個權杖2
GPT-5.4 mini
不支援長段文字記憶力解功能1
US$1.50US$0.150US$9.0099.9%每秒 99% > 100 個權杖2
GPT-5.4
不支援長段文字記憶力解功能1
US$5.00US$0.500US$30.0099.9%每秒 99% > 50 個權杖2
GPT-5.2
不支援長段文字記憶力解功能1
US$3.50US$0.350US$28.0099.9%每秒 99% > 50 個權杖2
GPT-5.1
不支援長段文字記憶力解功能1
US$2.50US$0.250US$20.0099.9%每秒 99% > 50 個權杖2
GPT-5
不支援長段文字記憶力解功能1
US$2.50US$0.250US$20.0099.9%每秒 99% > 50 個權杖2
GPT-5 mini
不支援長段文字記憶力解功能1
US$0.45US$0.045US$3.6099.9%每秒 99% > 80 個權杖2
GPT-5.1 codex
不支援長段文字記憶力解功能1
US$2.50US$0.250US$20.0099.9%每秒 99% > 50 個權杖2
GPT-5 codex
不支援長段文字記憶力解功能1
US$2.50US$0.250US$20.0099.9%每秒 99% > 50 個權杖2
GPT-4.1
不支援長段文字記憶力解功能1
US$3.50US$0.875US$14.0099.9%每秒 99% > 80 個權杖2
GPT-4.1 mini
不支援長段文字記憶力解功能1
US$0.70US$0.175US$2.8099.9%每秒 99% > 90 個權杖2
GPT-4.1 nano
不支援長段文字記憶力解功能1
US$0.20US$0.050US$0.8099.9%每秒 99% > 100 個權杖2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
US$4.25US$2.125US$17.0099.9%每秒 99% > 80 個權杖2
gpt-4o-2024-05-13
US$8.75US$26.2599.9%每秒 99% > 80 個權杖2
GPT-4o mini
US$0.25US$0.125US$1.0099.9%每秒 99% > 90 個權杖2
o3
US$3.50US$0.875US$14.0099.9%每秒 99% > 80 個權杖2
o4-mini
US$2.00US$0.500US$8.0099.9%每秒 99% > 90 個權杖2
1預估使用超過 12.8 萬個提示權杖的請求
2以每 5 分鐘為單位,計算第 50 百分位的請求延遲。客戶若已簽訂企業合約,且延遲 SLA 是以每分鐘計算第 50 百分位的請求延遲為準,則原來的 SLA 仍適用。
3僅適用於 Enterprise 方案客戶

運作方式

客戶可透過現有的「service_tier」參數,於每次請求時指定使用優先處理服務,只需設定 service_tier="default" 即可。

優先處理服務所使用的 Token 將按其數量計費,價格相較於標準處理服務稍高。 

除了可以在請求層級進行設定外,也可在「專案設定」→「預設服務層級:優先級」中,將項目設為優先級。你仍然可以按個別請求覆寫設定。

限制說明

  • 優先處理服務的速率限制是與其他服務層級共用的。
  • 少數情況下,若你的優先處理服務每分鐘 Token 量增加過快,可能會觸發速率提升限制。若超過速率提升限制,額外的流量可能會被轉送至標準處理服務。

定價

模型

速率限制

可靠性

政策