API 客戶的優先處理服務

優先處理服務可提供穩定且高速的效能，同時保有按需付費的靈活性。

選擇優先處理服務，可以解鎖：

可預期的低延遲：優先處理服務即使在高峰期間，也能比標準處理服務更快速、更穩定地生成 Token。
靈活彈性：與標準處理相同，優先處理服務也可以透過彈性的按需付費方式使用，無需事先部署。

	每一百萬個輸入權杖的費用	每一百萬個輸入權杖的費用 (快取)	每一百萬個輸出權杖的費用	正常運作時間 SLA³	延遲 SLA³
GPT-5.5 不支援長段文字記憶力解功能¹	US$12.50	US$1.250	US$75.00	99.9%	每秒 99% > 50 個權杖²
GPT-5.4 mini 不支援長段文字記憶力解功能¹	US$1.50	US$0.150	US$9.00	99.9%	每秒 99% > 100 個權杖²
GPT-5.4 不支援長段文字記憶力解功能¹	US$5.00	US$0.500	US$30.00	99.9%	每秒 99% > 50 個權杖²
GPT-5.2 不支援長段文字記憶力解功能¹	US$3.50	US$0.350	US$28.00	99.9%	每秒 99% > 50 個權杖²
GPT-5.1 不支援長段文字記憶力解功能¹	US$2.50	US$0.250	US$20.00	99.9%	每秒 99% > 50 個權杖²
GPT-5 不支援長段文字記憶力解功能¹	US$2.50	US$0.250	US$20.00	99.9%	每秒 99% > 50 個權杖²
GPT-5 mini 不支援長段文字記憶力解功能¹	US$0.45	US$0.045	US$3.60	99.9%	每秒 99% > 80 個權杖²
GPT-5.1 codex 不支援長段文字記憶力解功能¹	US$2.50	US$0.250	US$20.00	99.9%	每秒 99% > 50 個權杖²
GPT-5 codex 不支援長段文字記憶力解功能¹	US$2.50	US$0.250	US$20.00	99.9%	每秒 99% > 50 個權杖²
GPT-4.1 不支援長段文字記憶力解功能¹	US$3.50	US$0.875	US$14.00	99.9%	每秒 99% > 80 個權杖²
GPT-4.1 mini 不支援長段文字記憶力解功能¹	US$0.70	US$0.175	US$2.80	99.9%	每秒 99% > 90 個權杖²
GPT-4.1 nano 不支援長段文字記憶力解功能¹	US$0.20	US$0.050	US$0.80	99.9%	每秒 99% > 100 個權杖²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	US$4.25	US$2.125	US$17.00	99.9%	每秒 99% > 80 個權杖²
gpt-4o-2024-05-13	US$8.75	—	US$26.25	99.9%	每秒 99% > 80 個權杖²
GPT-4o mini	US$0.25	US$0.125	US$1.00	99.9%	每秒 99% > 90 個權杖²
o3	US$3.50	US$0.875	US$14.00	99.9%	每秒 99% > 80 個權杖²
o4-mini	US$2.00	US$0.500	US$8.00	99.9%	每秒 99% > 90 個權杖²

不支援長段文字記憶力解功能¹

1預估使用超過 12.8 萬個提示權杖的請求

2以每 5 分鐘為單位，計算第 50 百分位的請求延遲。客戶若已簽訂企業合約，且延遲 SLA 是以每分鐘計算第 50 百分位的請求延遲為準，則原來的 SLA 仍適用。

3僅適用於 Enterprise 方案客戶

客戶可透過現有的「service_tier」參數，於每次請求時指定使用優先處理服務，只需設定 service_tier="default" 即可。

優先處理服務所使用的 Token 將按其數量計費，價格相較於標準處理服務稍高。

除了可以在請求層級進行設定外，也可在「專案設定」→「預設服務層級：優先級」中，將項目設為優先級。你仍然可以按個別請求覆寫設定。

優先處理服務的速率限制是與其他服務層級共用的。
少數情況下，若你的優先處理服務每分鐘 Token 量增加過快，可能會觸發速率提升限制。若超過速率提升限制，額外的流量可能會被轉送至標準處理服務。

擴充層級將會與優先處理服務分開運作。

送往優先處理服務的請求將會另外計費，且不會計入你購買的擴充層級每分鐘 Token 配額 (TPM)。

不行。傳送至規模層級的流量不會自動轉至優先處理服務。

不是。所有處理模式的使用量都會計入你的年度企業支出合約。

可以！對於特定模型，快取輸入與標準處理服務一樣，享有同等的 50%、75% 或 90% 折扣。

若要檢視優先處理服務所處理的 token，請前往使用量資訊主頁，選擇「聊天完成」(Chat Completions) 或「回應」(Responses)，並依服務層級分組檢視。

若要檢視優先處理服務的費用，請前往使用量資訊主頁，並選擇「依費用項目分組」（Group by Line Item）。

目前尚未提供。我們將在未來評估是否將優先處理服務擴展至最新模型以外的其他產品。

優先處理支援與標準相同的多模態功能。特別是，影像可以作為優先處理輸入，並且以同等快速的延遲進行處理。

是的。我們計劃在未來的新 GPT 模型上提供優先處理服務。我們無法保證每一個模型都能支援這項功能。

優先處理服務的使用量在速率限制上與標準 API 流量同等。

優先處理服務設有速率提升限制，以確保所有客戶都能享有穩定且高效的效能，同時維持靈活性及按需付費的價格機制。如果 (a) 優先處理服務的效能下降，且 (b) 客戶的流量提升速度過快，部分優先處理的請求可能會被降級至標準處理服務。

目前優先處理服務的速率提升限制規定為：每分鐘處理至少 10 萬個 Token，且在不到 15 分鐘內，流量增加超過 50%。

由標準服務層級處理的請求將依標準費率計費，且不適用於優先處理服務等級目標。

由標準服務層級處理的請求，回應中會包含「service_tier="default"」。

遵守速率提升限制的最佳做法

更換模型時，請逐步增加流量。例如，當你的應用程式從舊版本切換到新版本時，建議使用功能標記在數小時內逐步轉換流量，而非一次性全部轉換。
避免在優先處理服務上執行大量資料處理或非同步任務。這些任務會快速增加流量，且通常不需要優先處理服務所帶來的效能提升。
如果經常觸及速率上限，建議改為購買或額外加購規模層級容量。

是的。你與組織成員的所有流量都會計入同一個速率提升限制。

Enterprise 客戶若有任何問題或疑慮，請洽客戶經理。

優先處理服務的 SLA 將與擴充層級的 SLA 採相同標準處理；若在特定時間內未達到承諾的 SLA，並且客戶屬於企業合約方案，我們將提供服務額度回饋作為補償。

擴充層級將會與優先處理服務分開運作。

送往優先處理服務的請求將會另外計費，且不會計入你購買的擴充層級每分鐘 Token 配額 (TPM)。

不行。傳送至規模層級的流量不會自動轉至優先處理服務。

不是。所有處理模式的使用量都會計入你的年度企業支出合約。

可以！對於特定模型，快取輸入與標準處理服務一樣，享有同等的 50%、75% 或 90% 折扣。

若要檢視優先處理服務所處理的 token，請前往使用量資訊主頁，選擇「聊天完成」(Chat Completions) 或「回應」(Responses)，並依服務層級分組檢視。

若要檢視優先處理服務的費用，請前往使用量資訊主頁，並選擇「依費用項目分組」（Group by Line Item）。

目前尚未提供。我們將在未來評估是否將優先處理服務擴展至最新模型以外的其他產品。

優先處理支援與標準相同的多模態功能。特別是，影像可以作為優先處理輸入，並且以同等快速的延遲進行處理。

是的。我們計劃在未來的新 GPT 模型上提供優先處理服務。我們無法保證每一個模型都能支援這項功能。

優先處理服務的使用量在速率限制上與標準 API 流量同等。

目前優先處理服務的速率提升限制規定為：每分鐘處理至少 10 萬個 Token，且在不到 15 分鐘內，流量增加超過 50%。

由標準服務層級處理的請求將依標準費率計費，且不適用於優先處理服務等級目標。

由標準服務層級處理的請求，回應中會包含「service_tier="default"」。

遵守速率提升限制的最佳做法

更換模型時，請逐步增加流量。例如，當你的應用程式從舊版本切換到新版本時，建議使用功能標記在數小時內逐步轉換流量，而非一次性全部轉換。
避免在優先處理服務上執行大量資料處理或非同步任務。這些任務會快速增加流量，且通常不需要優先處理服務所帶來的效能提升。
如果經常觸及速率上限，建議改為購買或額外加購規模層級容量。

是的。你與組織成員的所有流量都會計入同一個速率提升限制。

Enterprise 客戶若有任何問題或疑慮，請洽客戶經理。

API 客戶的優先處理服務

運作方式

限制說明

定價

（適用於 Enterprise 客戶）這項功能與規模層級如何協調運作？

（適用於 Enterprise 客戶）可以自動將規模層級超出配額的流量轉至優先處理服務嗎？

（對於 Enterprise 客戶）我的年度合約是綁定在特定處理模式上的嗎？

我還能享有快取輸入 Token 的折扣嗎？

如何檢視我的優先處理服務使用量和花費？

模型

優先處理服務是否適用於長上下文模型、微調模型、向量嵌入等？

其他模態如何與優先處理搭配運作？

是否支援未來其他模型？

速率限制

速率限制是多少？

速率提升限制是多少？

速率提升限制會在我的專案或組織之間共用嗎？

可靠性

（對於 Enterprise 客戶）如果優先處理服務未達到延遲目標，會如何處理？

政策

優先處理服務是否支援資料駐留機制？

優先處理服務是否支援 ZDR (零資料保留) 和 BAA (商業夥伴協議)？