解决CUDA error: out of memory

原创已于 2022-08-24 10:45:34 修改 · 2.6w 阅读

31 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python #图像处理

收录于

于 2022-03-30 19:16:41 首次发布

本文记录了一次在深度学习项目中遇到的CUDA内存溢出问题的解决过程。通过逐步排查和调整，最终发现验证阶段未正确使用no_grad()导致内存占用过高。文中详细介绍了尝试的多种解决方案，并分享了最终解决问题的具体步骤。

前情提要：

本人遇到的问题是在训练是正常，一到验证时就会出现cuda error: out of memory的问题

解决思路溯寻：

1.首先就是考虑减少batch_size和num_worker，对于我的情况不奏效

2.然后找到pin_memory发现是设置的True，改为false，仍旧不管用

3.包括把

 # Empty GPU cache
        if torch.cuda.is_available():
            torch.cuda.empty_cache()

放到报错位置的前后，不奏效

4.后来再聚焦问题关键，是一到验证就会出问题，所以专门查攻略，我初步怀疑是因为验证没有参与反向传播，梯度累积，内存爆了，但当时代码中有with torch.no_grad(): ，所以并没有发现关键，知道看到别人里面 forword是放在with torch.no_grad()后面的，所以最后

with torch.no_grad():
                # Forward pass
                loss, np_probs, hv_logits = self.forward(images, targets)

问题解决！

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NanXian Lin

关注关注

10
点赞
踩
31

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

解决RuntimeError: CUDA error: out of memory

CSDN 精品推荐

02-21

3026

显卡被占用：当存在多个显卡时，默认使用 0 号显卡。即使 1 号显卡空闲，但如果 0 号显卡被占用，仍然会导致报错。在使用 PyTorch 中加载模型时，出现 CUDA 错误: out of memory。根据具体情况，采取上述解决办法中的一种或多种来解决 CUDA 错误: out of memory 问题。解决办法：可以让其他显卡不可见，从而使 0 号显卡变为空余的 1 号显卡。CUDA 显存不足：可能是因为当前显卡显存不足。解决办法：考虑更换显存更大的显卡。

2 条评论您还未登录，请先登录后发表或查看评论

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 50.00 MiB (GPU 0； 23.69 GiB total

BetrayFree的博客

10-27

1万+

错误消息提供了一些有关当前GPU内存状态的信息，以及一些建议的解决方法。

torch.cuda.OutOfMemoryError

power的专栏

05-31

7743

遇到这个错误，按网上改小batch_size改的很小了，依然报错。错误原因是网络的输入输出shape不一致。后改小了网络结构，搞定。

TextFieldEffects终极性能优化指南：10个技巧确保流畅动画体验

热门推荐

xiyou__的博客

07-06

20万+

Bug：RuntimeError: CUDA out of memory. Tried to allocate … MiB 解决方法：法一：调小batch_size，设到4基本上能解决问题，如果还不行，该方法pass。法二：在报错处、代码关键节点（一个epoch跑完…）插入以下代码（目的是定时清内存）： import torch, gc gc.collect() torch.cuda.empty_cache() 法三（常用方法）：在测试阶段和验证阶段前插入代码 with torch.no_gr

解决出现CUDA error:out of memory的问题

qq_46542320的博客

05-24

2万+

使用：CUDA_VISIBLE_DEVICES限制一下使用的GPU。CUDA_VISIBLE_DEVICES=0,1 则使用这两张GPU。CUDA_VISIBLE_DEVICES=0 则使用第一张GPU。CUDA_VISIBLE_DEVICES=1，则使用第二张GPU。如何设置CUDA_VISIBLE_DEVICES？例如：有两块GPU，即0,1号GPU，查阅资料，发现是显卡内存不足。

CUDA out of memory.(已解决）

weixin_43398590的博客

04-08

15万+

CUDA out of memory.(已解决）有时候我们会遇到明明显存够用却显示CUDA out of memory，这时我们就要看看是什么进程占用了我们的GPU。按住键盘上的Windows小旗子+R在弹出的框里输入cmd，进入控制台。 nvidia-smi 这个命令可以查看GPU的使用情况，和占用GPU资源的程序。我们看到python再运行完以后没有释放资源导致GPU的内存满了。可以...

RuntimeError: CUDA error:out of memory的一种解决办法

qq_37015775的博客

07-09

3773

具体环境： Untubu：16.04 pytorch ：1.5.0 CUDA：10.0 我是使用pytorch运行代码时，遇到了如下错误： RuntimeError: CUDA error:out of memory 我尝试看网上的很多方法，也没有解决方法，然后想到之前运行过一篇类似的代码，其中好像有这样的一行代码：然后我抱着尝试的心态，在我的代码中加入下面俩行代码： import torch.backends.cudnn as cudnn cudnn.benchmark = True 幸运的是，我的

已解决：使用torch.load时遇到RuntimeError: CUDA error: out of memory CUDA kernel errors

weixin_63383390的博客

07-22

866

摘要：代码运行过程中出现"CUDA out of memory"错误，原因是模型加载时张量设备不匹配，即保存与加载时使用的GPU设备不一致。解决方法是在torch.load()中指定map_location参数，将模型加载到当前运行的设备上，如：torch.load('your.pth', map_location=device)。这样可以避免因设备不一致导致的内存错误。

如何解决RuntimeError: CUDA error: out of memory？

weixin_43509263的博客

01-05

3万+

当我们在使用GPU进行训练和推断时，经常会发现爆显存的问题。一开始的时候相信很多人跟我一样有个疑问，就是明明显存没占用，可是还是会爆？这里以8张卡为例，假设前面4张卡被人占用之后，还有后面4张卡是空的，如果这时候我们只是单纯的指定CUDA：0这样，那么必然会报下面这个错： RuntimeError: cuda runtime error (2) : out of memory at mmdet...

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 400.00 MiB (GPU 0； 6.00 GiB total

mjmald的博客

07-25

1万+

5. **调整 PyTorch 内存管理设置**: 可以尝试调整 PyTorch 的内存管理设置，例如通过设置`max_split_size_mb` 来避免内存碎片化。3. **释放不需要的显存**: 在某些情况下，可能存在一些不需要的显存被占用，可以使用`torch.cuda.empty_cache()` 来释放不需要的显存。可以尝试减小`batch_size` 参数的值。1. **减少模型的大小**: 可以考虑减少模型的大小，例如通过选择更小的模型、减少模型的层数或通道数等方式，来降低内存需求。

torch.cuda.OutOfMemoryError: CUDA out of memory.

Hello_World1023的博客

04-25

4万+

发现gpu:0显存被PID:19409程序大量占用, 报错应该是默认在gpu:0训练导致显存不足, 接着查看gpu:0上程序所属用户(如果不是师兄的我就kill了)设置完成后查看显存占用情况可以看到, gpu:1显存占用马上上升了, 不影响其他gpu卡的显存。这样即可指定在gpu:1上训练, 实际上是只设置gpu:1可见, 而屏蔽其他gpu卡。这样即可指定在gpu:1上训练, 实际上是只设置gpu:1可见, 而屏蔽其他gpu卡。发现gpu:1空闲, 指定gpu:1上训练模型, 有多种方法,

CUDA：out of memory的解决方法（实测有效）

大摆王的博客

05-08

1万+

CUDA out of memory问题通常发生在深度学习训练过程中，当GPU的显存不足以容纳模型、输入数据以及中间计算结果时就会触发。：深度学习模型尤其是大型模型，如Transformer或大型CNN，拥有大量的参数，这些参数在训练时需要被加载到GPU显存中。同时，如果批量大小（batch size）设置得过大，一次性处理的数据量也会增加，进一步加大显存的负担。

【已解决】探究CUDA out of memory背后原因，如何释放GPU显存？

FRIGIDWINTER的博客

04-11

9万+

本文探究CUDA的内存管理机制，总结RuntimeError: CUDA out of memory的背后原因，并给出解决方案

CUDA out of memory 解决办法

qq_42925267的博客

01-26

4万+

CUDA @TOC 欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式进行

已解决 RuntimeError: CUDA error: out of memory.

shibadadao233的博客

07-24

1万+

代码在服务器上运行出错，RuntimeError: CUDA error: out of memory CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

全网最全RuntimeError: CUDA error: out of memory解决方法

qq_37668436的博客

11-19

5万+

第一种情况如果这个报错后面跟了想要占用多少显存但是不够这样的字眼，如下：解决办法就很简单了：改小batchsize，batchsize砍半可以差不多省掉一半的显存推理阶段加上with torch.no_grad()，这个可以将修饰的代码段不要梯度，可以省掉很多显存改小input的shape，例如(224,224)->(112,112)这样可以省掉一半的显存换小的网络结构用多卡训练，torch可以用model = nn.DataParallel(model)启用多卡训练，终端用CUDA

RuntimeError: CUDA error: out of memory的解决【实测成功】

weixin_41529093的博客

03-23

4万+

仅作为记录，大佬请跳过。文章目录背景解决参考原因背景博主使用linux服务器运行MIL_train.py程序时，出现RuntimeError: CUDA error: out of memory的错误（之前运行这个python木有问题）解决在MIL_train.py文件里加入： import os os.environ["CUDA_VISIBLE_DEVICES"] = '1' 即可。参考感谢大佬博主文章：传送门原因服务器的默认gpu显卡正在使用，需要使用gpu的另一个空闲的显卡；li

RuntimeError:CUDA error:out of memory问题解决

Slim's Hello World

03-14

4万+

报错如下思路简洁明了，他已经告诉你了，默认使用的那gpu内存不足。在操作系统输入如下，查一下memory现在的状态： nvidia-smi 害，发现GPU-0有一个进程正在执行导致1GB剩余都不够。我们用GPU-1执行就行啦！问题解决 python文件中： import os os.environ["CUDA_VISIBLE_DEVICES"] = '1' 解决了。 ...