1. 组网前的准备:理解你的昇腾双机“高速公路”
如果你刚拿到两台搭载昇腾处理器的服务器,准备跑Deepseek这类大模型,心里可能既兴奋又有点发怵。兴奋的是终于能亲手搭建一个强大的AI算力平台,发怵的是看着一堆网卡、交换机和命令行,不知道从哪下手。别担心,你可以把双机之间的网络想象成连接两座超级城市的高速公路。模型训练和推理时,数据就像川流不息的货车,在这条公路上飞奔。网络配置得好不好,直接决定了你的“货车”是畅通无阻,还是天天堵在路上甚至出车祸。
在动手插线之前,我们先得搞清楚手里有什么“建材”。最常见的场景就是你手头有两台Atlas 800训练服务器或者类似的昇腾AI服务器,每台服务器上都有多个NPU(神经网络处理器),每个NPU都配有高速网卡,通常是200G或100G的接口。你的任务就是用一台交换机,把这些网卡全部连接起来,让它们处于同一个局域网内,形成一个高速、低延迟的通信平面。这个平面就是HCCL(华为集合通信库)工作的基础,也是Deepseek分布式运行的生命线。
这里有个关键点容易被忽略:交换机不是随便买一个就行。你得根据NPU网卡的速率和数量,选择匹配的交换机型号和光模块/线缆。我见过不少朋友兴冲冲买了设备,结果发现接口对不上或者速率不匹配,白白耽误时间。所以,在采购或确认现有设备时,一定要核对清楚。通常,我们会遇到两种主流组网方式:400G交换机组网和100G交换机组网。它们的选择,取决于你NPU网卡的总带宽需求和交换机的端口能力。
2. 两种主流组网方案详解与实战接线
2.1 400G交换机组网:把大水管拆成两根用
400G组网方案听起来很“土豪”,其实是一种高密度、高效率的连接方式。它特别适合NPU网卡是200G接口的场景。它的核心思路是:交换机提供一个400G的物理端口(比如一个QSFP-DD接口),但这个端口在逻辑上可以“拆分”成两个独立的200G逻辑端口。
具体怎么连呢? 你需要一根特殊的高速电缆,一端是QSFP-DD接头(插交换机),另一端是两个QSFP56接头(分别插服务器的两个NPU网卡)。这就好比交换机那边是一个大口径的总水管,到了服务器这边,用一根“Y型分水管”分成两路,分别给两个网卡供水。
光有线还不够,交换机的配置是关键。你必须在交换机的命令行界面里,对这个400G端口执行“拆分(breakout)”配置。以华为CloudEngine系列交换机为例,你可能需要进入接口视图,执行类似 port mode gearbox 或 port split 的命令(具体命令因厂商和型号而异),将其设置为 2x200G 模式。这个步骤如果忘了做,链路死活都起不来,因为交换机和网卡“语言不通”,速率和通道数都不匹配。配置成功后,你在交换机上会看到原本的1个400G接口变成了两个逻辑上的200G接口,每个逻辑接口对应服务器上的一个物理网卡。
2.2 100G交换机组网:主动降速以求兼容
如果你的交换机是100G端口(QSFP28接口)为主的,而服务器NPU网卡是200G的,那就需要采用降速组网。这时,你需要使用两端都是QSFP28接头的高速电缆(DAC直连铜缆或AOC光缆)进行连接。
这里最大的不同在于:服务器侧的NPU网卡需要主动降低速率,以匹配交换机的100G能力。你不能指望200G的网卡插上100G的线就能自动协商成100G,很多时候它可能无法正确识别并降速,导致链路反复震荡甚至无法UP。因此,我们需要通过命令来强制指定网口的工作模式。
在服务器的操作系统上,你可以使用 ethtool 或昇腾专用的工具来设置网口速率。例如,对于某个特定的网卡(假设是eth0),你可能需要执行 ethtool -s eth0 speed 100000 duplex full autoneg off


1万+

被折叠的 条评论
为什么被折叠?



