面向 API 客户的优先处理服务

优先处理服务提供可靠的高速性能，并具备灵活的即用即付模式。

选择优先处理服务，你可以享受：

可预测的低延迟：相较标准处理服务，优先处理服务生成 Token 的速度更快、更稳定，即使在高峰期也能保持一致的性能。
易于使用的灵活性：与标准处理服务一样，优先处理服务可通过灵活的即用即付模式使用，而无需提前预配。

	每百万输入令牌的价格	每百万输入令牌的价格（缓存）	每百万输出令牌的价格	正常运行时间 SLA³	延迟 SLA³
GPT-5.5 不包括长上下文¹	US$12.50	US$1.250	US$75.00	99.9%	99% > 50每秒令牌数²
GPT-5.4 mini 不包括长上下文¹	US$1.50	US$0.150	US$9.00	99.9%	99% > 100每秒令牌数²
GPT-5.4 不包括长上下文¹	US$5.00	US$0.500	US$30.00	99.9%	99% > 50每秒令牌数²
GPT-5.2 不包括长上下文¹	US$3.50	US$0.350	US$28.00	99.9%	99% > 50每秒令牌数²
GPT-5.1 不包括长上下文¹	US$2.50	US$0.250	US$20.00	99.9%	99% > 50每秒令牌数²
GPT-5 不包括长上下文¹	US$2.50	US$0.250	US$20.00	99.9%	99% > 50每秒令牌数²
GPT-5 mini 不包括长上下文¹	US$0.45	US$0.045	US$3.60	99.9%	99% > 80每秒令牌数²
GPT-5.1 codex 不包括长上下文¹	US$2.50	US$0.250	US$20.00	99.9%	99% > 50每秒令牌数²
GPT-5 codex 不包括长上下文¹	US$2.50	US$0.250	US$20.00	99.9%	99% > 50每秒令牌数²
GPT-4.1 不包括长上下文¹	US$3.50	US$0.875	US$14.00	99.9%	99% > 80每秒令牌数²
GPT-4.1 mini 不包括长上下文¹	US$0.70	US$0.175	US$2.80	99.9%	99% > 90每秒令牌数²
GPT-4.1 nano 不包括长上下文¹	US$0.20	US$0.050	US$0.80	99.9%	99% > 100每秒令牌数²
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06	US$4.25	US$2.125	US$17.00	99.9%	99% > 80每秒令牌数²
gpt-4o-2024-05-13	US$8.75	—	US$26.25	99.9%	99% > 80每秒令牌数²
GPT-4o mini	US$0.25	US$0.125	US$1.00	99.9%	99% > 90每秒令牌数²
o3	US$3.50	US$0.875	US$14.00	99.9%	99% > 80每秒令牌数²
o4-mini	US$2.00	US$0.500	US$8.00	99.9%	99% > 90每秒令牌数²

不包括长上下文¹

1估计请求数量 > 128K 提示令牌

2以每 5 分钟为单位计算的 p50 请求延迟。对于已签订企业协议且延迟服务水平协议 (SLA) 以每分钟为单位计算 p50 请求延迟的客户，原有的 SLA 仍继续适用。

3这仅适用于 Enterprise 版客户。

客户可以在每个请求中使用现有的 service_tier 参数，将流量定向到优先处理服务，选项为 service_tier = “priority”。

通过优先处理服务的 Token 将按每个 Token 计费，价格相较标准处理服务费率更高。

除了可以在请求级别进行配置外，你还可通过“项目设置” → “Default Service Tier: Priority”，将项目默认设为优先处理。单个请求仍可覆盖该默认值。

优先处理服务的速率限制与其他服务层级共享。
在少数情况下，如果优先处理服务的每分钟 Token 使用量快速增加，可能会触发流量提升速率限制。一旦超过该限制，额外的流量将自动切换至标准处理服务。

Scale Tier 将与优先处理服务保持分离。

发送到优先处理服务的请求会单独计费，不会计入你已购买的 Scale Tier TPM 套餐。

不可以。发送到 Scale Tier 的流量不会自动转移到优先处理服务。

否。所有处理模式都会计入你的年度企业支出承诺。

能！对于指定的模型，缓存输入会享有与标准处理服务相同的 50%、75% 或 90% 的优惠。

要查看优先处理服务所处理的 Token，请进入 Usage 控制面板，选择 Chat Completions 或 Responses，再选择 Group by Service Tier。

要查看优先处理服务的费用，请进入 Usage 控制面板，并选择 Group by Line Item。

目前尚不适用。我们将评估是否在最新模型之外的其他产品上提供优先处理服务。

优先处理服务支持与标准处理服务相同的多模态功能。特别是，图像可以作为输入用于优先处理服务，并以同样的低延迟进行处理。

会。我们计划在新的 GPT 模型上提供优先处理服务，但并不保证会支持每个模型。

在速率限制方面，优先处理服务的消耗与标准 API 流量相同。

为了确保所有客户都能持续获得高性能，同时保持灵活的按需付费模式，优先处理服务设有流量提升速率限制。如果 (a) 优先处理性能下降，且 (b) 客户的流量提升过快，那么部分优先请求可能会被降级为标准处理。

当前的优先处理服务流量提升速率限制定义为：在处理至少 100 万 TPM 的情况下，如果在 15 分钟内流量提升超过每分钟 Token 数的 50%，则触发限制。

使用标准服务层处理的请求将按标准费率计费，不享受优先处理服务级别目标 (SLO)。

对于由标准服务层处理的请求，其响应中会包含 service_tier=”Default”。

保持在流量提升速率限制内的最佳实践

在切换模型时逐步增加流量。例如，当你的应用从旧快照迁移到新快照时，建议使用功能标志在几个小时内逐步迁移流量，而不是一次性全部迁移。
避免在优先处理服务上运行大规模数据处理或异步任务。这类任务会迅速提升流量，而通常并不需要优先处理服务的性能优势。
如果你经常遇到流量提升速率限制，建议考虑购买或额外增加 Scale Tier 容量。

会。所有流量都会计入同一流量提升速率限制。

对于 Enterprise 客户，如有任何问题，请联系你的客户经理 (AD)。

优先处理服务的 SLA 将与 Scale Tier 的 SLA 相同；如果在特定时间窗口内未能满足这些 SLA，我们会向签订企业协议的客户提供服务补偿。

Scale Tier 将与优先处理服务保持分离。

发送到优先处理服务的请求会单独计费，不会计入你已购买的 Scale Tier TPM 套餐。

不可以。发送到 Scale Tier 的流量不会自动转移到优先处理服务。

否。所有处理模式都会计入你的年度企业支出承诺。

能！对于指定的模型，缓存输入会享有与标准处理服务相同的 50%、75% 或 90% 的优惠。

要查看优先处理服务所处理的 Token，请进入 Usage 控制面板，选择 Chat Completions 或 Responses，再选择 Group by Service Tier。

要查看优先处理服务的费用，请进入 Usage 控制面板，并选择 Group by Line Item。

目前尚不适用。我们将评估是否在最新模型之外的其他产品上提供优先处理服务。

优先处理服务支持与标准处理服务相同的多模态功能。特别是，图像可以作为输入用于优先处理服务，并以同样的低延迟进行处理。

会。我们计划在新的 GPT 模型上提供优先处理服务，但并不保证会支持每个模型。

在速率限制方面，优先处理服务的消耗与标准 API 流量相同。

当前的优先处理服务流量提升速率限制定义为：在处理至少 100 万 TPM 的情况下，如果在 15 分钟内流量提升超过每分钟 Token 数的 50%，则触发限制。

使用标准服务层处理的请求将按标准费率计费，不享受优先处理服务级别目标 (SLO)。

对于由标准服务层处理的请求，其响应中会包含 service_tier=”Default”。

保持在流量提升速率限制内的最佳实践

在切换模型时逐步增加流量。例如，当你的应用从旧快照迁移到新快照时，建议使用功能标志在几个小时内逐步迁移流量，而不是一次性全部迁移。
避免在优先处理服务上运行大规模数据处理或异步任务。这类任务会迅速提升流量，而通常并不需要优先处理服务的性能优势。
如果你经常遇到流量提升速率限制，建议考虑购买或额外增加 Scale Tier 容量。

会。所有流量都会计入同一流量提升速率限制。

对于 Enterprise 客户，如有任何问题，请联系你的客户经理 (AD)。

优先处理服务的 SLA 将与 Scale Tier 的 SLA 相同；如果在特定时间窗口内未能满足这些 SLA，我们会向签订企业协议的客户提供服务补偿。

面向 API 客户的优先处理服务

如何运作

限制

定价

（适用于 Enterprise 客户）这与 Scale Tier 有什么关系？

（适用于 Enterprise 客户）我可以将 Scale Tier 的溢出流量自动发送到优先处理服务吗？

（适用于 Enterprise 客户）我的年度承诺是否绑定到某个特定的处理模式？

我还能享受缓存输入 Token 优惠吗？

如何查看我的优先处理服务使用量和支出？

模型

优先处理服务是否适用于长上下文、微调模型、嵌入等？

其他模态在优先处理服务中如何运作？

是否会支持未来的模型？

速率限制

什么是速率限制？

什么是流量提升速率限制？

我的项目或组织之间会共享流量提升速率限制吗？

可靠性

（适用于 Enterprise 客户）如果未达到延迟目标，会怎样？

政策

优先处理服务是否兼容数据驻留？

优先处理服务是否兼容 ZDR 和 BAA？