问题来源
用GPU训练模型,由于操作习惯问题。终直接在终端用ctrl+z终止训练,此时GPU资源可能未立即释放,
下次继续使用时有可能会报例如CUDA_ERROR_OUT_OF_MEMORY这种错误,就是提示显存不够。这时候需要人工来杀死占用GPU显存的进程。
解放方法
1 查看GPU进程及PID
fuser -v /dev/nvidia*
2 找到仍然在占用GPU的进程PID
kill -9 pid # 表示强迫进程立即停止
kill pid # 也可以终止进程
本文介绍在使用GPU进行模型训练时,如何正确管理GPU资源。当直接使用Ctrl+Z终止训练后,可能导致GPU资源未立即释放,从而引发CUDA_ERROR_OUT_OF_MEMORY错误。文章提供了解决方案,包括如何查看GPU上的进程及其PID,以及如何终止占用GPU资源的进程。
用GPU训练模型,由于操作习惯问题。终直接在终端用ctrl+z终止训练,此时GPU资源可能未立即释放,
下次继续使用时有可能会报例如CUDA_ERROR_OUT_OF_MEMORY这种错误,就是提示显存不够。这时候需要人工来杀死占用GPU显存的进程。
1 查看GPU进程及PID
fuser -v /dev/nvidia*
2 找到仍然在占用GPU的进程PID
kill -9 pid # 表示强迫进程立即停止
kill pid # 也可以终止进程
3995
1525

被折叠的 条评论
为什么被折叠?
 训练模型提示“CUDA_ERROR_OUT_OF_MEMORY”&spm=1001.2101.3001.5002&articleId=90113301&d=1&t=3&u=b6740a8a75ff4019b7b50811104758e7)