API 客戶的優先處理服務
優先處理服務可提供穩定且高速的效能,同時保有按需付費的靈活性。
選擇優先處理服務,可以解鎖:
- 可預期的低延遲:優先處理服務即使在高峰期間,也能比標準處理服務更快速、更穩定地生成 Token。
- 靈活彈性:與標準處理相同,優先處理服務也可以透過彈性的按需付費方式使用,無需事先部署。
| 每一百萬個輸入權杖的費用 | 每一百萬個輸入權杖的費用 (快取) | 每一百萬個輸出權杖的費用 | 正常運作時間 SLA3 | 延遲 SLA3 | |
|---|---|---|---|---|---|
GPT-5.5 不支援長段文字記憶力解功能1 | US$12.50 | US$1.250 | US$75.00 | 99.9% | 每秒 99% > 50 個權杖2 |
GPT-5.4 mini 不支援長段文字記憶力解功能1 | US$1.50 | US$0.150 | US$9.00 | 99.9% | 每秒 99% > 100 個權杖2 |
GPT-5.4 不支援長段文字記憶力解功能1 | US$5.00 | US$0.500 | US$30.00 | 99.9% | 每秒 99% > 50 個權杖2 |
GPT-5.2 不支援長段文字記憶力解功能1 | US$3.50 | US$0.350 | US$28.00 | 99.9% | 每秒 99% > 50 個權杖2 |
GPT-5.1 不支援長段文字記憶力解功能1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 每秒 99% > 50 個權杖2 |
GPT-5 不支援長段文字記憶力解功能1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 每秒 99% > 50 個權杖2 |
GPT-5 mini 不支援長段文字記憶力解功能1 | US$0.45 | US$0.045 | US$3.60 | 99.9% | 每秒 99% > 80 個權杖2 |
GPT-5.1 codex 不支援長段文字記憶力解功能1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 每秒 99% > 50 個權杖2 |
GPT-5 codex 不支援長段文字記憶力解功能1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 每秒 99% > 50 個權杖2 |
GPT-4.1 不支援長段文字記憶力解功能1 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 每秒 99% > 80 個權杖2 |
GPT-4.1 mini 不支援長段文字記憶力解功能1 | US$0.70 | US$0.175 | US$2.80 | 99.9% | 每秒 99% > 90 個權杖2 |
GPT-4.1 nano 不支援長段文字記憶力解功能1 | US$0.20 | US$0.050 | US$0.80 | 99.9% | 每秒 99% > 100 個權杖2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | US$4.25 | US$2.125 | US$17.00 | 99.9% | 每秒 99% > 80 個權杖2 |
gpt-4o-2024-05-13 | US$8.75 | — | US$26.25 | 99.9% | 每秒 99% > 80 個權杖2 |
GPT-4o mini | US$0.25 | US$0.125 | US$1.00 | 99.9% | 每秒 99% > 90 個權杖2 |
o3 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 每秒 99% > 80 個權杖2 |
o4-mini | US$2.00 | US$0.500 | US$8.00 | 99.9% | 每秒 99% > 90 個權杖2 |
運作方式
客戶可透過現有的「service_tier」參數,於每次請求時指定使用優先處理服務,只需設定 service_tier="default" 即可。
優先處理服務所使用的 Token 將按其數量計費,價格相較於標準處理服務稍高。
除了可以在請求層級進行設定外,也可在「專案設定」→「預設服務層級:優先級」中,將項目設為優先級。你仍然可以按個別請求覆寫設定。
限制說明
- 優先處理服務的速率限制是與其他服務層級共用的。
- 少數情況下,若你的優先處理服務每分鐘 Token 量增加過快,可能會觸發速率提升限制。若超過速率提升限制,額外的流量可能會被轉送至標準處理服務。