最近在部署深度学习模型,用到Docker,在推理阶段需要用到GPU,因此有了这个需求:通过Docker使用服务器上的GPU设备。
在这里就不详细展开,网上有很多的教程。Docker19.0以上就支持nvidia-docker了。而在配置过程中主要记录两个bug:
docker --gpus Failed to initialize NVML: Unknown Error
解决方案:https://bbs.archlinux.org/viewtopic.php?id=266915

nvidia-container-cli: container error: cgroup subsystem devices not found
主要解决方案:和https://github.com/NVIDIA/nvidia-docker/issues/1447和https://github.com/NixOS/nixpkgs/issues/127146

本文介绍了在使用Docker部署深度学习模型时遇到的两个常见问题:nvidia-docker初始化失败和cgroup subsystem devices not found。作者分享了详细的解决方案,适用于NVIDIA GPU在Docker容器中的配置.


被折叠的 条评论
为什么被折叠?



