Windows RuntimeError: Distributed package doesn‘t have NCCL built in问题

最新推荐文章于 2025-09-21 13:20:01 发布

原创最新推荐文章于 2025-09-21 13:20:01 发布 · 1.9w 阅读

50 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#windows #python

那些年踩过的坑专栏收录该内容

9 篇文章

订阅专栏

本文讲述了在Windows上遇到的PyTorch分布式训练中RuntimeError，由于不支持NCCL，提出通过将backend设置为'gloo'来切换到GLOO通信方式。解决方案包括在`dist.init_process_group`前添加backend参数。

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen

文本生成

Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

问题描述：

python在windows环境下dist.init_process_group(backend, rank, world_size)处报错‘RuntimeError: Distributed package doesn’t have NCCL built in’，具体信息如下：

  File "D:\Software\Anaconda\Anaconda3\envs\segmenter\lib\site-packages\torch\distributed\distributed_c10d.py", line 531, in init_process_group
    timeout=timeout)
  File "D:\Software\Anaconda\Anaconda3\envs\segmenter\lib\site-packages\torch\distributed\distributed_c10d.py", line 625, in _new_process_group_helper
    raise RuntimeError("Distributed package doesn't have NCCL "
RuntimeError: Distributed package doesn't have NCCL built in