torch distributed 多GPU训练笔记

本文详细介绍了如何使用torch.nn.DistributedDataParallel进行多GPU训练,包括单机多卡和多机多卡的配置。讲解了初始化过程,如设置backend、init_method、rank、world_size,并强调了TCP初始化和使用DistributedSampler的重要性。此外,还探讨了模型的保存和加载策略,以及在多GPU训练中使用dist.barrier()的必要性。

 

DistributedDataParallel (既可单机多卡又可多机多卡)

先奉上官网nn.DistributedDataParallel(model)链接

https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html#torch.nn.parallel.DistributedDataParallel​pytorch.org

  1. CLASS torch.nn.parallel.DistributedDataParallel(module, device_ids=None, output_device=None,

  2. dim=0, broadcast_buffers=True, process_group=None, bucket_cap_mb=25,

  3. find_unused_parameters=False, check_reduction=False)

  • 参数定义

module是要放到多卡训练的模型;

device_ids数据类型是一个列表, 表示可用的gpu卡号;

output_devices数据类型也是列表,表示模型输出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI算法网奇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值