DGX Spark 双机互连实测 Qwen3-235B 模型

最新推荐文章于 2026-06-23 13:27:48 发布

原创最新推荐文章于 2026-06-23 13:27:48 发布 · 1.4k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#gpt #人工智能 #NVIDIA #gpu算力 #大数据

收录于

前段时间我们使用单台 DGX Spark 测试了 gpt-oss-120b 模型性能。今天，我们通过一根 200 Gbps 带宽的 QSFP 线缆连接两台 DGX Spark，并测试了一个参数更大的模型：Qwen3-235B，看看性能如何。

整体测试下来，单用户生成速度为 10 tokens/s，但预填充速度还不错，单用户可达 1000 tps，详细测试数据如下:

生成速度

知识库应用（输入4K）

知识库应用（输入4K）方面，单用户生成速度也有 10 tokens/s，首字时延在 4s 左右。

以下是实际测试过程：

双机 DGX Spark 实际测试过程

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

赞奇科技Xsuperzone

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

4000刀的NVIDIA DGX Spark和一台游戏本，谁才是我的本地大模型“真香”选择？

weixin_26985923的博客

04-03

194

本文对比了NVIDIA DGX Spark与高端游戏本在本地大模型运行中的性能与成本差异。DGX Spark凭借128GB统一内存和FP8精度支持，在模型加载、并发能力和扩展性上远超游戏本，适合长期开发者；而游戏本虽初始成本低，但面临显存限制和量化损失。文章还探讨了折中方案，帮助开发者根据需求做出最优选择。

参与评论您还未登录，请先登录后发表或查看评论

NVIDIA DGX Spark实战指南：从开箱到AI模型高效部署

weixin_29239279的博客

03-18

1111

本文详细介绍了NVIDIA DGX Spark的开箱体验、硬件架构及AI模型高效部署实战指南。从1 PetaFLOP算力的迷你设备到Grace Blackwell超级芯片的深度解析，再到五分钟快速上手指南和大模型部署技巧，帮助开发者充分利用这款全球最小AI超级计算机的性能优势。

【实测】NVIDIA DGX Spark 本地部署 Qwen3.5-35B-A3B-FP8 完整教程 + 性能分析

热门推荐

伟大的大威的博客

03-02

1万+

摘要：本文介绍在NVIDIA DGX Spark（GB10芯片）上部署Qwen3.5-35B-A3B-FP8量化模型的最佳实践。该MoE架构模型（35B参数/3B激活）通过FP8量化将模型大小从65GB降至37.5GB，精度损失<0.5%，同时避免了NVFP4的兼容性问题。部署采用vLLM 0.16.1rc1容器化方案，支持262K上下文长度和自动工具调用功能。关键配置包括：FlashAttention加速、88%显存利用率、禁用KV缓存FP8（避免启动冲突）。实测生成速度达31 tokens/s（B

【首发】DGX Spark 三机互连跑 Qwen3-235B-A22B-FP8！

Xsuperzone的博客

11-28

638

往期我们测试了台运行模型，近期我们的技术伙伴测试了台集群运行模型，现在来为大家带来第一手的实测性能分析。

DGX Spark (Blackwell) 部署 Qwen3.6 35B FP8 踩坑实录：从无限崩溃到成功跑通

weixin_44407716的博客

04-25

2068

本文记录了在全新 NVIDIA DGX Spark G10（Blackwell ARM64架构）服务器上，使用 vLLM 部署 Qwen3.6-35B-A3B-FP8 模型的硬核踩坑实录。针对新硬件架构下，标准镜像频发底层 CUDA 算子崩溃（Error Internal）及配置校验冲突的致命问题，文章深度剖析了报错原理，并给出了切换专属 nightly 镜像配合特定参数的终极解决方案。内附完美适配 128K 超长上下文与原生 Function Calling 的“一键启动” Docker 配置，助你跨越底

DGX Spark双机实战：手把手教你扩展405B参数教育模型（含代码示例）

i3j4k5的博客

02-27

507

本文详细介绍了如何利用NVIDIA DGX Spark双机系统，将教育大模型从200B参数扩展至405B参数的实战方案。内容涵盖硬件互联配置、基于Megatron-LM的混合并行策略（流水线并行与张量并行）、多模态教育数据的分布式处理，以及性能优化与故障恢复技巧，为构建高性能学科大模型提供完整代码示例与实施路径。

Qwen3-235B-FP8：2025企业级大模型部署效率革命

gitblog_00628的博客

12-06

526

阿里通义千问团队推出的Qwen3-235B-A22B-Instruct-2507-FP8模型，通过FP8量化技术实现性能与效率的平衡，在保持与原版BF16模型近乎一致性能的同时，将部署成本降低约50%，标志着大模型从实验室走向工业界的关键跨越。 ## 行业现状：企业AI部署的效率困境 2025年，大模型企业应用市场规模已达972亿美元，预计2030年将增长至2293亿美元，年复合增长率18.9%

全球最小的AI超级计算机：本地跑大模型，秒杀Mac Mini

10-14

1314

大家好，我是章北海Nvidia 又出新了——全球最小 AI 超级计算机 NVIDIA DGX SparkDGX Spark 配备 128GB 统一内存，可以在本地运行 2000 亿参数规模的大模型，微调 700 亿参数级别的大模型，它还支持开发者在本地创建 AI 智能体并运行先进软件栈。

基于Qwen2.5模型的高效文本转语音（TTS）系统 Spark-TTS

m0_65555479的博客

03-09

2754

一种基于大语言模型（Qwen2.5）的高效文本转语音（TTS）系统针对当前 TTS 领域的效率问题，提出了一种新的BiCodec语音编码方法，使得语音合成更加自然，可控，并支持零样本语音克隆。✅ 采用 BiCodec 编码，简化架构，提升推理效率。✅ 支持细粒度语音控制（性别、音调、语速等），远超传统 TTS。✅ 领先的零样本语音克隆（Zero-Shot TTS），能生成高质量个性化声音。✅ 在多个基准测试上超越现有 TTS 方法，并结合 Qwen2.5 LLM 进行端到端生成。

DGX Spark 实战解析：模型选择与效率优化全指南

Xsuperzone的博客

10-31

1245

自 DGX Spark 发布以来，这段探索之路挑战与收获并存。在成功完成软件移植的攻坚后，我们决定将这段时期的实战经验系统梳理，转化为一份关于模型选择与性能优化的实用指引，希望能助力更多团队高效利用 DGX Spark。

Qwen3-VL-235B-A22B-Instruct-AWQ 全方位技术解析

ting9452000的专栏

04-26

563

Qwen3-VL-235B-A22B-Instruct-AWQ 是阿里云开源旗舰多模态大模型，采用 MoE 稀疏架构与 AWQ 4 比特量化技术。模型整体参数达 2350 亿，推理仅激活 220 亿参数，兼顾超强能力与运行效率。其支持 256K 超长上下文，可兼容文本、图像、视频多模态输入，在文档解析、视觉问答等任务中性能领先主流闭源模型。

昇思MindSpore基于昇腾硬件快速支持Qwen3-Next-80B-A3B系列模型，内附教程4步实现推理！

Kenji_Shinji的博客

09-19

1138

阿里云发布Qwen3-Next系列大模型，包括80B参数的Thinking和Instruct版本，主打长文本处理与参数效率。该模型通过HybridAttention、High-SparsityMoE等创新技术提升性能，训练成本仅为Qwen3-32B的十分之一。昇思MindSporeAI框架已实现快速支持，提供完整推理部署方案，支持8卡Atlas服务器运行。开发者可通过魔乐社区下载模型（约152GB），使用专属Docker镜像快速体验，并提供详细的服务化部署指南和API调用示例。

Nvidia DGX Spark 集群分别使用vLLM和SGLang部署 Qwen3.5-35B-A3B 技术方案

CLASSXY的博客

03-02

3140

摘要：本文详细分析了在NVIDIA DGX Spark集群上部署Qwen3.5-35B-A3B大模型的两种方案。由于DGX Spark的128GB统一内存可单机完整加载该模型（FP8约35GB），推荐采用"独立实例+负载均衡"架构而非跨节点并行。SGLang在多轮对话和复杂推理场景表现更优（吞吐量提升29%），而vLLM生态更成熟。针对DGX Spark的ARM架构，必须使用特定aarch64镜像，并建议采用FP8量化以避免NVFP4的已知CUDA崩溃问题。

DGX Spark 实践解析（二）：ComfyUI 篇

Xsuperzone的博客

11-03

956

DGX Spark + fp8 + LoRA，仅需4步就能生成高质量图片。

DGX Spark 跑 Qwen3.5-35B-A3B 实测43tok/s

2401_88191956的博客

04-01

207

主要踩坑记录： - openclaw 发的请求里有 developer role，Qwen3.5 的模板不认，直接 500 ❌ - 工具调用返回用的是 toolResult，Qwen3.5 只认 tool，又是 500 ❌ - 默认开启 thinking 模式，模型把所有 token 都花在推理上，返回内容为空 ❌ 解决方案：写了一个小代理层，自动处理所有兼容性问题。支持在消息开头加 [think] 关键词按需开启深度推理模式，其他情况下正常快速响应。

个人玩家-Mac部署新版Qwen3-30B模型不完全指南

pythonhy的博客

08-05

1702

本地量化版，目前对于代码生成，还只能处理一点简单任务，如果不是不让联网，最好还是别用本地小模型。

NVIDIA DGX Spark实战：如何在桌面上轻松运行200B参数大模型（附配置教程）

i3j4k5的博客

02-27

633

本文提供了NVIDIA DGX Spark在桌面端运行200B参数大模型的完整实战指南。详细介绍了从硬件初始化、系统配置、容器化环境搭建，到模型加载、量化、推理流水线编写及性能调优的全过程。重点阐述了如何利用其统一内存架构和TensorRT-LLM等工具进行高效本地推理，并探讨了通过双机互联扩展以应对超大规模模型的方法。

搭载高性能GPU的英伟达Nvidia DGX Spark桌面性能小怪兽国内首台开箱视频！

Saniffer的博客

10-23

1221

英伟达DGXSpark小型AI主机开箱视频发布，展示这款桌面级超级计算机的细节。设备采用金属铝外壳，重1.2kg，搭载NVIDIA Grace Blackwell Superchip处理器、128GB内存和4TB SSD存储，支持200Gbps网络互联。视频重点介绍了其模块化设计、高效散热系统及多机堆叠功能，适合AI研发团队和科研机构使用。该设备虽体积小巧但性能强大，体现了英伟达在AI计算领域的技术实力。

NVIDIA DGX Spark 即将到货！一篇文章为您解答所有疑问

Xsuperzone的博客

10-16

1447

DGX Spark 系统可以采用独立配置，直接连接显示器、键盘和鼠标设备，也可以以无头模式（headless）部署，作为网络连接计算设备，不直接连接显示器、鼠标或键盘。综上所述，NVIDIA DGX Spark 的统一内存，轻便的尺寸，优秀的 NVIDIA 软件栈生态以及可以直接在边缘端进行应用，极大地拓宽了产品本身的应用场景。的正方形小盒子，由下图对比可以看出 DGX Spark 是一个非常方便携带的迷你 AI 计算机，无论是在家、学校还是公司来回携带都很便携，出差随身携带更是不在话下。

我用 GPT 从零搭了一个 AIDD 文献自动化站点：从想法、提示词到本地跑通的完整实践