AI 推理速度指标

最新推荐文章于 2026-06-17 19:27:10 发布

原创最新推荐文章于 2026-06-17 19:27:10 发布 · 388 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#人工智能

大模型的推理速度并没有一个放之四海而皆准的绝对数值，因为“标准”会根据具体的应用场景（如实时语音助手、离线数据分析、代码补全）以及部署成本的考量而变化。

不过，在目前的 AI 工业界，我们通常使用一套标准化的指标体系来定义和测试推理速度。

要判断速度是否达标，业界通常会将“速度”拆解为以下三个关键维度：

TTFT (Time To First Token，首字延迟)：
- 定义：从系统接收到用户的请求，到模型生成并返回第一个 Token（字/词）所花费的时间。
- 意义：直接决定了用户的“等待感”。如果 TTFT 过长，用户会觉得系统卡顿或死机。
TPOT (Time Per Output Token，单字生成时间) / TPS (Tokens Per Second，每秒生成字数)：
- 定义：模型在吐出第一个字之后，后续每个字生成的平均时间（或每秒能吐出多少个字）。
- 意义：决定了内容输出的流畅度。如果 TPS 低于人类的阅读速度，用户就会觉得模型在“往外挤牙膏”。
RPS (Requests Per Second，系统吞吐量) / 并发数 (Concurrency)：
- 定义：在保证上述 TTFT 和 TPS 达标的前提下，服务器每秒能同时处理多少个用户的并发请求。
- 意义：决定了系统的承载能力和商业化成本。

如果是面向普通用户的交互式对话场景（如 Chatbot），通常的达标及格线如下表所示：

注：人类的平均阅读速度大约是每秒 5 到 8 个汉字。因此，只要模型的 TPS 稳定在 15 以上，用户的视觉体感就是“文字如流水般丝滑输出”。如果是代码补全场景，由于程序员通常是一扫而过，TPS 则要求更高（通常需要大于 50 tokens/s）。

测试大模型推理速度（Benchmarking）是一个严谨的系统工程，不能仅仅靠“肉眼看秒表”。标准的测试流程通常包含以下几个步骤：

大模型的速度受多种因素影响，测试前必须固定以下条件：

输入长度 (Prompt Length)：测试时输入是 100 个 Token 还是 10000 个 Token？（输入越长，TTFT 越慢，因为模型需要时间理解上下文）。
输出长度 (Generation Length)：限制模型生成 512 或 1024 个 Token，以便统一计算平均速度。
硬件与量化：明确显卡型号（如 A100、RTX 4090）以及模型是否进行了量化（如 FP16、INT8、INT4）。

业界通常不会手动写死循环测试，而是使用专业的压力测试工具来模拟真实流量：

仅仅测试“单人使用”的速度意义不大。科学的测试方法是：

单并发测试：测试 1 个用户请求时的极限 TTFT 和 TPS（测算模型的天花板能力）。
阶梯施压 (Load Testing)：将并发用户数从 1 逐渐增加到 10、50、100。
寻找拐点：当并发数达到某个临界点时，你会发现 TTFT 突然飙升到 5 秒以上，或者 TPS 暴跌到 10 以下。这个临界点，就是你当前系统能够承载的最大有效并发量。

通过上述科学的工具和严谨的变量控制，你就能准确得出一份具有说服力的系统级推理性能报告。