面向 API 客户的优先处理服务
优先处理服务提供可靠的高速性能,并具备灵活的即用即付模式。
选择优先处理服务,你可以享受:
- 可预测的低延迟:相较标准处理服务,优先处理服务生成 Token 的速度更快、更稳定,即使在高峰期也能保持一致的性能。
- 易于使用的灵活性:与标准处理服务一样,优先处理服务可通过灵活的即用即付模式使用,而无需提前预配。
| 每百万输入令牌的价格 | 每百万输入令牌的价格(缓存) | 每百万输出令牌的价格 | 正常运行时间 SLA3 | 延迟 SLA3 | |
|---|---|---|---|---|---|
GPT-5.5 不包括长上下文1 | US$12.50 | US$1.250 | US$75.00 | 99.9% | 99% > 50每秒令牌数2 |
GPT-5.4 mini 不包括长上下文1 | US$1.50 | US$0.150 | US$9.00 | 99.9% | 99% > 100每秒令牌数2 |
GPT-5.4 不包括长上下文1 | US$5.00 | US$0.500 | US$30.00 | 99.9% | 99% > 50每秒令牌数2 |
GPT-5.2 不包括长上下文1 | US$3.50 | US$0.350 | US$28.00 | 99.9% | 99% > 50每秒令牌数2 |
GPT-5.1 不包括长上下文1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50每秒令牌数2 |
GPT-5 不包括长上下文1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50每秒令牌数2 |
GPT-5 mini 不包括长上下文1 | US$0.45 | US$0.045 | US$3.60 | 99.9% | 99% > 80每秒令牌数2 |
GPT-5.1 codex 不包括长上下文1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50每秒令牌数2 |
GPT-5 codex 不包括长上下文1 | US$2.50 | US$0.250 | US$20.00 | 99.9% | 99% > 50每秒令牌数2 |
GPT-4.1 不包括长上下文1 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 99% > 80每秒令牌数2 |
GPT-4.1 mini 不包括长上下文1 | US$0.70 | US$0.175 | US$2.80 | 99.9% | 99% > 90每秒令牌数2 |
GPT-4.1 nano 不包括长上下文1 | US$0.20 | US$0.050 | US$0.80 | 99.9% | 99% > 100每秒令牌数2 |
GPT-4o gpt-4o-2024-11-20 gpt-4o-2024-08-06 | US$4.25 | US$2.125 | US$17.00 | 99.9% | 99% > 80每秒令牌数2 |
gpt-4o-2024-05-13 | US$8.75 | — | US$26.25 | 99.9% | 99% > 80每秒令牌数2 |
GPT-4o mini | US$0.25 | US$0.125 | US$1.00 | 99.9% | 99% > 90每秒令牌数2 |
o3 | US$3.50 | US$0.875 | US$14.00 | 99.9% | 99% > 80每秒令牌数2 |
o4-mini | US$2.00 | US$0.500 | US$8.00 | 99.9% | 99% > 90每秒令牌数2 |
如何运作
客户可以在每个请求中使用现有的 service_tier 参数,将流量定向到优先处理服务,选项为 service_tier = “priority”。
通过优先处理服务的 Token 将按每个 Token 计费,价格相较标准处理服务费率更高。
除了可以在请求级别进行配置外,你还可通过“项目设置” → “Default Service Tier: Priority”,将项目默认设为优先处理。单个请求仍可覆盖该默认值。
限制
- 优先处理服务的速率限制与其他服务层级共享。
- 在少数情况下,如果优先处理服务的每分钟 Token 使用量快速增加,可能会触发流量提升速率限制。一旦超过该限制,额外的流量将自动切换至标准处理服务。