前段时间我们使用单台 DGX Spark 测试了 gpt-oss-120b 模型性能。今天,我们通过一根 200 Gbps 带宽的 QSFP 线缆连接两台 DGX Spark,并测试了一个参数更大的模型:Qwen3-235B,看看性能如何。
整体测试下来,单用户生成速度为 10 tokens/s,但预填充速度还不错,单用户可达 1000 tps,详细测试数据如下:
生成速度

知识库应用(输入4K)

知识库应用(输入4K)方面,单用户生成速度也有 10 tokens/s,首字时延在 4s 左右。
以下是实际测试过程:
双机 DGX Spark 实际测试过程

194

被折叠的 条评论
为什么被折叠?



