跳至主要内容
OpenAI

面向 API 客户的优先处理服务

优先处理服务提供可靠的高速性能,并具备灵活的即用即付模式。

选择优先处理服务,你可以享受:

  • 可预测的低延迟:相较标准处理服务,优先处理服务生成 Token 的速度更快、更稳定,即使在高峰期也能保持一致的性能。
  • 易于使用的灵活性:与标准处理服务一样,优先处理服务可通过灵活的即用即付模式使用,而无需提前预配。
每百万输入令牌的价格每百万输入令牌的价格(缓存)每百万输出令牌的价格正常运行时间 SLA3延迟 SLA3
GPT-5.5
不包括长上下文1
US$12.50US$1.250US$75.0099.9%99% > 50每秒令牌数2
GPT-5.4 mini
不包括长上下文1
US$1.50US$0.150US$9.0099.9%99% > 100每秒令牌数2
GPT-5.4
不包括长上下文1
US$5.00US$0.500US$30.0099.9%99% > 50每秒令牌数2
GPT-5.2
不包括长上下文1
US$3.50US$0.350US$28.0099.9%99% > 50每秒令牌数2
GPT-5.1
不包括长上下文1
US$2.50US$0.250US$20.0099.9%99% > 50每秒令牌数2
GPT-5
不包括长上下文1
US$2.50US$0.250US$20.0099.9%99% > 50每秒令牌数2
GPT-5 mini
不包括长上下文1
US$0.45US$0.045US$3.6099.9%99% > 80每秒令牌数2
GPT-5.1 codex
不包括长上下文1
US$2.50US$0.250US$20.0099.9%99% > 50每秒令牌数2
GPT-5 codex
不包括长上下文1
US$2.50US$0.250US$20.0099.9%99% > 50每秒令牌数2
GPT-4.1
不包括长上下文1
US$3.50US$0.875US$14.0099.9%99% > 80每秒令牌数2
GPT-4.1 mini
不包括长上下文1
US$0.70US$0.175US$2.8099.9%99% > 90每秒令牌数2
GPT-4.1 nano
不包括长上下文1
US$0.20US$0.050US$0.8099.9%99% > 100每秒令牌数2
GPT-4o
gpt-4o-2024-11-20
gpt-4o-2024-08-06
US$4.25US$2.125US$17.0099.9%99% > 80每秒令牌数2
gpt-4o-2024-05-13
US$8.75US$26.2599.9%99% > 80每秒令牌数2
GPT-4o mini
US$0.25US$0.125US$1.0099.9%99% > 90每秒令牌数2
o3
US$3.50US$0.875US$14.0099.9%99% > 80每秒令牌数2
o4-mini
US$2.00US$0.500US$8.0099.9%99% > 90每秒令牌数2
1估计请求数量 > 128K 提示令牌
2以每 5 分钟为单位计算的 p50 请求延迟。对于已签订企业协议且延迟服务水平协议 (SLA) 以每分钟为单位计算 p50 请求延迟的客户,原有的 SLA 仍继续适用。
3这仅适用于 Enterprise 版客户。

如何运作

客户可以在每个请求中使用现有的 service_tier 参数,将流量定向到优先处理服务,选项为 service_tier = “priority”

通过优先处理服务的 Token 将按每个 Token 计费,价格相较标准处理服务费率更高。

除了可以在请求级别进行配置外,你还可通过“项目设置” → “Default Service Tier: Priority”,将项目默认设为优先处理。单个请求仍可覆盖该默认值。

限制

  • 优先处理服务的速率限制与其他服务层级共享。
  • 在少数情况下,如果优先处理服务的每分钟 Token 使用量快速增加,可能会触发流量提升速率限制。一旦超过该限制,额外的流量将自动切换至标准处理服务。

定价

模型

速率限制

可靠性

政策