API 客戶專享優先處理服務
優先處理功能高速可靠,並提供按需付費選項,靈活又方便。
選用優先處理功能可以解鎖:
- 可預期的低延遲:優先處理可加快 Token 生成速度,即使在需求高峰期,生成速度仍比標準處理服務更加穩定。
- 方便靈活:與標準處理程序一樣,優先處理程序可以按需付費使用,毋須預先部署,彈性方便。
| 每百萬個輸入詞元價格 | 每百萬個輸入詞元價格(快取) | 每百萬個輸出詞元價格 | 在線率 SLA3 | 延遲 SLA3 | |
|---|---|---|---|---|---|
GPT-5.5 長上下文除外1 | US$12.50 | US$1.250 | US$75.00 | 99.9% | 99% > 每秒 50 個詞元2 |
GPT-5.4 mini 長上下文除外1 | US$1.50 | US$0.150 | US$9.00 | 99.9% | 99% > 每秒 100 個詞元2 |
GPT-5.4 長上下文除外1 | US$5.00 | US$0.500 | US$30.00 | 99.9% | 99% > 每秒 50 個詞元2 |
GPT-5.2 長上下文除外1 | US$3.50 | US$0.350 | US$28.00 | 99.9% | 99% > 每秒 50 個詞元2 |
GPT-5.1 長上下文除外1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 每秒 50 個詞元2 |
GPT-5 長上下文除外1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 每秒 50 個詞元2 |
GPT-5 mini 長上下文除外1 | US$0.45 | US$0.045 | US$3.60 | 99.9% | 99% > 每秒 80 個詞元2 |
GPT-5.1 codex 長上下文除外1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 每秒 50 個詞元2 |
GPT-5 codex 長上下文除外1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 每秒 50 個詞元2 |
GPT-4.1 長上下文除外1 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 99% > 每秒 80 個詞元2 |
GPT-4.1 mini 長上下文除外1 | US$0.70 | US$0.175 | US$2.80 | 99.9% | 99% > 每秒 90 個詞元2 |
GPT-4.1 nano 長上下文除外1 | US$0.20 | US$0.050 | US$0.80 | 99.9% | 99% > 每秒 100 個詞元2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | US$4.25 | US$2.125 | US$17.00 | 99.9% | 99% > 每秒 80 個詞元2 |
gpt-4o-2024-05-13 | US$8.75 | — | US$26.25 | 99.9% | 99% > 每秒 80 個詞元2 |
GPT-4o mini | US$0.25 | US$0.125 | US$1.00 | 99.9% | 99% > 每秒 90 個詞元2 |
o3 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 99% > 每秒 80 個詞元2 |
o4-mini | US$2.00 | US$0.500 | US$8.00 | 99.9% | 99% > 每秒 90 個詞元2 |
運作方式
每次提出要求前,客戶可透過 service_tier = “priority” 選項設定既有的 service_tier 參數 ,藉此將流量導向優先處理程序。
透過優先處理提供的 Token 將按數目收費,價格略高於標準處理費。
除了可以在請求層級進行設定外,你亦可以在「項目設定」→「預設服務層級:優先級」中,將項目設為優先級。你仍然可以按個別請求覆寫設定。
限制
- 優先處理程序的速率限制與其他服務層級一併計算。
- 在少數情況下,如每分鐘優先處理的詞元數目急速上升,可能會觸發增長速率限制。假如增長速率超出限制,其後的額外流量或會改送至標準處理程序。