多机多卡分布式训练_runtimeerror: timed out initializing process group-CSDN博客

本文详细介绍了如何在Linux环境中安装CUDA、显卡驱动、PyTorch及其分布式训练框架如accelerate、deepspeed和pdsh。文中还提供了解决RuntimeError的问题和调整超时时间的实例，以及指出网络带宽对训练速度的影响。

1. 环境搭建

分布式训练框架：accelerate+deepspeed+pdsh(可有可无)
基础环境：cuda、显卡驱动、pytorch

1.1 安装相关包

cuda安装：参考官网安装步骤

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install cuda

显卡驱动安装：下载官网驱动包并安装

pytorch安装：参考官网安装指令

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

accelerate安装：参考huggingface官网

pip install accelerate

deepspeed安装：参考deepspeed github

pip install deepspeed

pdsh安装：官网说明，用于分布执行shell命令

可以参考教程：并行分布式运维工具pdsh-阿里云开发者社区

tar jxvf pdsh-2.29.tar.bz2
cd pdsh-2.29
./configure --with-ssh --with-rsh --with-mrsh --with-dshgroups --with-machines=/etc/pdsh/machines
make
make install
pdsh -V