如何用sglang在双机H100上高效推理Deepseek-R1-671B？保姆级配置教程-CSDN博客

如何用sglang在双机H100上高效推理Deepseek-R1-671B？保姆级配置教程

最近在折腾大模型推理的朋友，估计都绕不开一个现实问题：当模型参数量膨胀到671B这个级别，单张甚至单机8卡H100都显得捉襟见肘。Deepseek-R1-671B就是这样一个“庞然大物”，想要让它流畅地跑起来，双机16卡H100几乎是标配。但硬件堆起来只是第一步，如何让这16张卡高效协同工作，把ROCE网络的带宽吃满，把GPU的算力榨干，才是真正的挑战。我花了几周时间，在真实的双机H100集群上，基于sglang推理引擎，从零开始搭建、调试、优化，最终让这个大家伙跑出了不错的吞吐和延迟。这篇文章，就是把我踩过的坑、验证过的配置、以及关键的调优思路，毫无保留地分享给你。无论你是负责线上服务部署的AI工程师，还是进行前沿模型研究的研究员，这份从实战中总结的“保姆级”指南，应该能帮你少走不少弯路。

1. 环境准备：从硬件到驱动的基石搭建

在开始任何软件配置之前，确保硬件和底层驱动环境稳定、高性能，是后续一切工作的基础。双机部署的复杂性，很大程度上来自于跨节点的网络和GPU通信。一个配置不当的底层环境，会让上层的推理框架性能大打折扣，甚至无法启动。

我们的目标环境是两台服务器，每台配备8张NVIDIA H100 80GB GPU。除了GPU，另一个核心是高速互联网络。我们使用的是支持RDMA over Converged Ethernet (RoCE)的400G网卡。RoCE允许GPU通过网卡直接访问对方的内存（GPUDirect RDMA），绕过CPU和系统内存，这是实现跨机GPU高效通信的关键。你需要确认你的服务器配备了相应的InfiniBand或高速以太网卡，并已正确安装驱动。

提示：在采购或租赁云上H100实例时，务必确认节点间是否配备了高速互联网络（如NVLink Switch for intra-node，以及RoCE/InfiniBand for inter-node），并了解其拓扑和带宽。这是决定多机扩展效率的生死线。

首先，从操作系统和驱动开始。我们选用Ubuntu 22.04 LTS作为基础系统，内核版本为5.15.0。接下来是驱动栈的安装，顺序和版本匹配至关重要：

安装NVIDIA GPU驱动：版本550.54.14。建议使用apt仓库安装，避免编译问题。
```
# 添加NVIDIA官方仓库并安装
sudo apt update
sudo apt install nvidia-driver-550
```
安装后重启，使用nvidia-smi命令验证驱动和GPU识别是否正常。

安装CUDA Toolkit：版本12.4。CUDA提供了GPU计算的运行时库。

wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.14_linux.run
sudo sh cuda_12.4.0_550.54.14_linux.run

安装时，注意将CUDA路径添加到~/.bashrc中：

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

安装网卡驱动与固件：对于Mellanox (NVIDIA) ConnectX系列网卡，需要安装MLNX_OFED驱动包。我们使用的版本是24.10-1.1.4。这步比较复杂，需要从NVIDIA官网下载对应操作系统版本的驱动包，并按照官方文档进行安装。安装完成后，使用ibv_devices和ibstatus命令检查RDMA设备是否被正确识别。
关键服务：NVIDIA Fabric Manager：这是一个常驻服务，用于管理多GPU系统（尤其是NVSwitch拓扑）中的通信。对于H100多机环境，它必须处于运行状态。
```
sudo systemctl enable nvidia-fabricmanager
sudo systemctl start nvidia-fabricmanager
sudo systemctl status nvidia-fabricmanager # 确认状态为active (running)
```