跳至主要内容
OpenAI

面向 API 客户的规模层级

此产品仅面向 Enterprise 客户提供。请联系销售团队⁠,了解更多信息。若想以灵活的即用即付 (PAYG) 方式享受同样的优质延迟和可靠性优势,请参阅优先处理

规模层级允许你预先购买特定数量的每分钟 API 输入和输出 Token(称为“Token 单元”),以访问一个特定的模型快照。每个 Token 单元的购买期限最少为 30 天。我们可能会根据客户的兴趣添加更多模型。

通过选择规模层级,你可以解锁:

  • 可预测的延迟:规模层级专为高稳定性设计,即便在需求高峰期,Token 生成速度也比即用即付 (PAYG) 服务更快、更稳定。
  • 无上限的扩展:通过规模层级购买的任何配额都会自动添加到你的速率限制中,因此你可以放心地进一步扩展。
  • 更高的可靠性:规模层级的流量提供 99.9% 的运行时间 SLA 和优先级计算资源。
输入资源包输出资源包正常运行时间 SLA延迟 SLA
GPT-5.550,000 TPM
每天每单元 US$750.00
N/A399.9%99% > 100每秒令牌数2
GPT-5.4 mini50,000 TPM
每天每单元 US$100.00
N/A399.9%99% > 100每秒令牌数2
GPT-5.4
不含长上下文窗口4
50,000 TPM
每天每单元 US$300.00
N/A399.9%99% > 50每秒令牌数2
GPT-5.225,000 TPM
每天每单元 US$105.00
2,500 TPM
每天每单元 US$84.00
99.9%99% > 50每秒令牌数2
GPT-5.125,000 TPM
每天每单元 US$75.00
2,500 TPM
每天每单元 US$60.00
99.9%99% > 50每秒令牌数2
GPT-525,000 TPM
每天每单元 US$75.00
2,500 TPM
每天每单元 US$60.00
99.9%99% > 50每秒令牌数2
GPT-5 mini500,000 TPM
每天每单元 US$275.00
50,000 TPM
每天每单元 US$220.00
99.9%99% > 80每秒令牌数2
GPT-4.1
不包括长上下文1
30,000 TPM
每天每单元 US$110.00
2,500 TPM
每天每单元 US$36.00
99.9%99% > 80每秒令牌数2
GPT-4.1 mini
不包括长上下文1
500,000 TPM
每天每单元 US$450.00
50,000 TPM
每天每单元 US$175.00
99.9%99% > 90每秒令牌数2
GPT-4.1 nano
不包括长上下文1
500,000 TPM
每天每单元 US$110.00
50,000 TPM
每天每单元 US$40.00
99.9%99% > 100每秒令牌数2
GPT-4.1 fine tuning30,000 TPM
每天每单元 US$165.00
2,500 TPM
每天每单元 US$36.00
99.9%99% > 80每秒令牌数2
GPT-4.1 mini fine tuning500,000 TPM
每天每单元 US$900.00
50,000 TPM
每天每单元 US$175.00
99.9%99% > 90每秒令牌数2
o325,000 TPM
每天每单元 US$75.00
5,000 TPM
每天每单元 US$60.00
99.9%99% > 80每秒令牌数2
o4-mini30,000 TPM
每天每单元 US$50.00
5,000 TPM
每天每单元 US$32.50
99.9%99% > 90每秒令牌数2
GPT-4o30,000 TPM
每天每单元 US$124.59
2,500 TPM
每天每单元 US$39.34
99.9%99% > 80每秒令牌数2
GPT-4o mini500,000 TPM
每天每单元 US$114.75
50,000 TPM
每天每单元 US$49.18
99.9%99% > 90每秒令牌数2
GPT-4o mini fine tuning500,000 TPM
每天每单元 US$229.50
50,000 TPM
每天每单元 US$98.36
99.9%99% > 90每秒令牌数2
o15,000 TPM
每天每单元 US$163.93
1,000 TPM
每天每单元 US$131.15
99.9%99% > 80每秒令牌数2
o3-mini30,000 TPM
每天每单元 US$78.69
5,000 TPM
每天每单元 US$52.46
99.9%99% > 90每秒令牌数2
1估计请求数量 > 128K 提示令牌
2以每 5 分钟为单位计算的 p50 请求延迟。对于已签订企业协议且延迟服务水平协议 (SLA) 以每分钟为单位计算 p50 请求延迟的客户,原有的 SLA 仍继续适用。
3在 GPT-5.4 中,Scale 层级按照每分钟输入和输出 Token 的组合套餐形式购买。输入 Token、缓存的输入 Token 和输出 Token 的用量将以不同的费率,计入此组合套餐。请参阅下方“运作方式”部分。
4长上下文指 > 272K

工作原理

通过规模层级,你可以购买输入和输出 Token 单元。例如,对于 GPT‑4.1,每个输入单元的价格为 110 美元/天,授权额度为 30,000 输入 Token/分钟。每个输出单元的价格为 36 美元/天,授权额度为 2,500 输出 Token/分钟。每个 Token 单元的购买期限最少为 30 天。

有关规模层级如何与提示缓存 (Prompt Caching) 交互的更多信息,请参阅下方的常见问题 (FAQ) 部分。

对于 GPT‑5.4,你购买的是“输入与输出合并 Token/分钟”。这为你提供了更大的灵活性,无需预测输入和输出 Token 的比例。当你使用规模层级时,我们会按照以下方式将 Token 计入你的合并 Token 额度:

  • 输入 Token 计为 1
  • 缓存的输入 Token 遵循下方常见问题部分中的各模型缓存规则
  • 输出 Token 根据该模型即用即付 (PayG) 的输出与输入 Token 价格比例进行折算。例如,对于 GPT‑5.4,一个输出 Token 计为 6。
每分钟令牌数TPM按使用的令牌数付款19 令牌/秒99.5%即用即付平均延迟正常运行时间服务层级输入输出之前按月预付19 令牌/秒25 令牌/秒99.5%99.9%即用即付规模平均延迟正常运行时间服务层级输入3 个单元输出2 个单元之后

定价

Token 单元与速率限制

模型

可靠性

政策