1. 环境搭建
- 分布式训练框架:accelerate+deepspeed+pdsh(可有可无)
- 基础环境:cuda、显卡驱动、pytorch
1.1 安装相关包
- cuda安装:参考官网安装步骤
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install cuda
- 显卡驱动安装:下载官网驱动包并安装
- pytorch安装:参考官网安装指令
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
- accelerate安装:参考huggingface官网
pip install accelerate
- deepspeed安装:参考deepspeed github
pip install deepspeed
- pdsh安装:官网说明,用于分布执行shell命令
可以参考教程:并行分布式运维工具pdsh-阿里云开发者社区
tar jxvf pdsh-2.29.tar.bz2
cd pdsh-2.29
./configure --with-ssh --with-rsh --with-mrsh --with-dshgroups --with-machines=/etc/pdsh/machines
make
make install
pdsh -V
<

本文详细介绍了如何在Linux环境中安装CUDA、显卡驱动、PyTorch及其分布式训练框架如accelerate、deepspeed和pdsh。文中还提供了解决RuntimeError的问题和调整超时时间的实例,以及指出网络带宽对训练速度的影响。


被折叠的 条评论
为什么被折叠?



