调试GPU程序错误《CUDA out of memory》

当遇到CUDA out of memory错误时,可以尝试减小BatchSize、将变量移到CPU、使用empty_cache()以及避免GPU变量积累。若仍无法解决,可以使用debug_memory()函数分析GPU上的变量,进一步通过debug_memory_sum()计算GPU内存占用。资源库resource限于Linux系统,对于高维度变量需适当调整代码。

问题描述

我们在跑深度学习程序的时候,经常会遇到CUDA out of memory,一些简单的方案比如

  • 缩小Batch Size
  • 及时的把不用的变量移动到CPU
  • 执行empty_cache()
  • 避免GPU变量累积,例如涉及到GPU变量的跨轮次的加操作和append操作

如果上述的方法依然没有解决问题,可以通过分析GPU上的变量来进行相关的调试:

def debug_memory():
    import collections, gc, resource, torch
    print('maxrss = {}'.format(
        resource.getrusage(resource.RUSAGE_SELF).ru_maxrss))
    tensors = collections.Counter((str
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值