面向 API 客户的规模层级

此产品仅面向 Enterprise 客户提供。请联系销售团队⁠，了解更多信息。若想以灵活的即用即付 (PAYG) 方式享受同样的优质延迟和可靠性优势，请参阅优先处理⁠。

规模层级允许你预先购买特定数量的每分钟 API 输入和输出 Token（称为“Token 单元”），以访问一个特定的模型快照。每个 Token 单元的购买期限最少为 30 天。我们可能会根据客户的兴趣添加更多模型。

通过选择规模层级，你可以解锁：

可预测的延迟：规模层级专为高稳定性设计，即便在需求高峰期，Token 生成速度也比即用即付 (PAYG) 服务更快、更稳定。
无上限的扩展：通过规模层级购买的任何配额都会自动添加到你的速率限制中，因此你可以放心地进一步扩展。
更高的可靠性：规模层级的流量提供 99.9% 的运行时间 SLA 和优先级计算资源。

	输入资源包	输出资源包	正常运行时间 SLA	延迟 SLA
GPT-5.5	50,000 TPM 每天每单元 US$750.00	N/A³	99.9%	99% > 100每秒令牌数²
GPT-5.4 mini	50,000 TPM 每天每单元 US$100.00	N/A³	99.9%	99% > 100每秒令牌数²
GPT-5.4 不含长上下文窗口⁴	50,000 TPM 每天每单元 US$300.00	N/A³	99.9%	99% > 50每秒令牌数²
GPT-5.2	25,000 TPM 每天每单元 US$105.00	2,500 TPM 每天每单元 US$84.00	99.9%	99% > 50每秒令牌数²
GPT-5.1	25,000 TPM 每天每单元 US$75.00	2,500 TPM 每天每单元 US$60.00	99.9%	99% > 50每秒令牌数²
GPT-5	25,000 TPM 每天每单元 US$75.00	2,500 TPM 每天每单元 US$60.00	99.9%	99% > 50每秒令牌数²
GPT-5 mini	500,000 TPM 每天每单元 US$275.00	50,000 TPM 每天每单元 US$220.00	99.9%	99% > 80每秒令牌数²
GPT-4.1 不包括长上下文¹	30,000 TPM 每天每单元 US$110.00	2,500 TPM 每天每单元 US$36.00	99.9%	99% > 80每秒令牌数²
GPT-4.1 mini 不包括长上下文¹	500,000 TPM 每天每单元 US$450.00	50,000 TPM 每天每单元 US$175.00	99.9%	99% > 90每秒令牌数²
GPT-4.1 nano 不包括长上下文¹	500,000 TPM 每天每单元 US$110.00	50,000 TPM 每天每单元 US$40.00	99.9%	99% > 100每秒令牌数²
GPT-4.1 fine tuning	30,000 TPM 每天每单元 US$165.00	2,500 TPM 每天每单元 US$36.00	99.9%	99% > 80每秒令牌数²
GPT-4.1 mini fine tuning	500,000 TPM 每天每单元 US$900.00	50,000 TPM 每天每单元 US$175.00	99.9%	99% > 90每秒令牌数²
o3	25,000 TPM 每天每单元 US$75.00	5,000 TPM 每天每单元 US$60.00	99.9%	99% > 80每秒令牌数²
o4-mini	30,000 TPM 每天每单元 US$50.00	5,000 TPM 每天每单元 US$32.50	99.9%	99% > 90每秒令牌数²
GPT-4o	30,000 TPM 每天每单元 US$124.59	2,500 TPM 每天每单元 US$39.34	99.9%	99% > 80每秒令牌数²
GPT-4o mini	500,000 TPM 每天每单元 US$114.75	50,000 TPM 每天每单元 US$49.18	99.9%	99% > 90每秒令牌数²
GPT-4o mini fine tuning	500,000 TPM 每天每单元 US$229.50	50,000 TPM 每天每单元 US$98.36	99.9%	99% > 90每秒令牌数²
o1	5,000 TPM 每天每单元 US$163.93	1,000 TPM 每天每单元 US$131.15	99.9%	99% > 80每秒令牌数²
o3-mini	30,000 TPM 每天每单元 US$78.69	5,000 TPM 每天每单元 US$52.46	99.9%	99% > 90每秒令牌数²

1估计请求数量 > 128K 提示令牌

2以每 5 分钟为单位计算的 p50 请求延迟。对于已签订企业协议且延迟服务水平协议 (SLA) 以每分钟为单位计算 p50 请求延迟的客户，原有的 SLA 仍继续适用。

3在 GPT-5.4 中，Scale 层级按照每分钟输入和输出 Token 的组合套餐形式购买。输入 Token、缓存的输入 Token 和输出 Token 的用量将以不同的费率，计入此组合套餐。请参阅下方“运作方式”部分。

4长上下文指 > 272K

工作原理

通过规模层级，你可以购买输入和输出 Token 单元。例如，对于 GPT‑4.1，每个输入单元的价格为 110 美元/天，授权额度为 30,000 输入 Token/分钟。每个输出单元的价格为 36 美元/天，授权额度为 2,500 输出 Token/分钟。每个 Token 单元的购买期限最少为 30 天。

有关规模层级如何与提示缓存 (Prompt Caching) 交互的更多信息，请参阅下方的常见问题 (FAQ) 部分。

对于 GPT‑5.4，你购买的是“输入与输出合并 Token/分钟”。这为你提供了更大的灵活性，无需预测输入和输出 Token 的比例。当你使用规模层级时，我们会按照以下方式将 Token 计入你的合并 Token 额度：

输入 Token 计为 1
缓存的输入 Token 遵循下方常见问题部分中的各模型缓存规则
输出 Token 根据该模型即用即付 (PayG) 的输出与输入 Token 价格比例进行折算。例如，对于 GPT‑5.4，一个输出 Token 计为 6。

定价

出于结算目的，每分钟 Token 数 (TPM) 的计算方式是按小时整点对齐的 15 分钟间隔（例如：3:00 至 < 3:15，3:15 至 < 3:30 等）计算平均使用的 Token 数量。如果 15 分钟内使用的总 Token 数低于你的规模层级授权额度，则不予计费。例如，如果你购买了 GPT‑4o 的规模层级，授权额度为每分钟 30,000 个输入 Token，那么你在任何 15 分钟时段内最多可以使用 450,000 个输入 Token 而不会产生额外费用。超出此限额使用的任何 Token 均按即用即付 (PAYG) 费率计费。

Token 单元与速率限制

你可以在设置页面⁠⁠（在新窗口中打开）中查看当前的速率限制。当你购买规模层级的 Token 单元时，该模型的速率限制将根据你购买的数量自动增加。当你使用该模型时，请求将优先使用你速度更快的规模层级配额进行处理。如果你超出了配额，额外的请求将通过常规的标准处理服务进行处理。如果你在一分钟内规模层级 + 常规标准处理的总速率限制均被超出，那么后续请求将像往常一样被拒绝，并返回 429 错误代码。

根据模型不同，我们对缓存的输入 Token 提供不同的优惠（50%、75% 或 90%）。如果你在缓存 Token 优惠为 50% 的模型上发送了 50,000 TPM 的缓存输入 Token，这些 Token 仅计为 25,000 TPM 占用你的配额。如果你在缓存 Token 优惠为 75% 的模型上发送了 50,000 TPM 的缓存输入 Token，这些 Token 仅计为 12,500 TPM 占用你的配额。了解更多关于提示缓存的信息 ↗⁠（在新窗口中打开）

面向 API 客户的规模层级

工作原理

定价

规模层级是如何订购和配置的？

计费何时开始？

在使用规模层级期间，即用即付 (PAYG) 的超额部分是如何计算的？

如果我做出年度承诺，我的支出必须用于规模层级吗？

我的年度承诺是否绑定了特定的产品？

如果我已经在使用预留容量，如何为 GPT-4o 使用规模层级？

Token 单元与速率限制

如何购买规模层级的 Token 单元？

如何查看我的 TPM？

如何查看我的总速率限制？

我可以选择哪些请求由规模层级覆盖吗？

规模层级如何与提示缓存配合运作？

模型

其他模态如何与规模层级配合运作？

规模层级支持微调吗？

我可以自动将规模层级溢出的流量发送至优先处理吗？

可靠性

如果延迟和运行时间 SLA 同时被违反，会发生什么？

政策

零数据保留 (ZDR) 在规模层级中如何运作？