【已解决】RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa, o

原创于 2023-10-16 21:20:37 发布 · 4.4w 阅读

·

145

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#opencv #人工智能 #机器学习 #vscode #ide

Bugs（程序报错）专栏收录该内容

144 篇文章

订阅专栏

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

前情提要

今天来复现一下WaterKnn，这个项目的话遇到的问题不算很多，所以就长话短说。

项目地址：https://github.com/adiyoss/WatermarkNN

项目简介：https://medium.com/@carstenbaum/the-ubiquity-of-machine-learning-and-its-challenges-to-intellectual-property-dc38e7d66b05

论文地址：https://www.usenix.org/system/files/conference/usenixsecurity18/sec18-adi.pdf

环境配置：python3.7，cuda11.8(此处需11.6即可)，GPU3090，torch1.13，其他未尽事宜请在项目地址中自查。

问题描述

再复现上述项目的时候出现了以下错误，包括且不限于

AssertionError: Error: no checkpoint found!

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 2; 1.95 GiB total capacity; 145.54 MiB already allocated; 7.31 MiB free; 160.00 MiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CON

RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)`，

原因分析及解决

AssertionError: Error: no checkpoint found!

这是一个断言错误，就是checkpoint找不到了，那说明没有这个呗，但是我在项目和项目描述看了很多都没找到checkpoint/model.t7，但是我上面没有找到，那就自己训练一个吧。

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 2; 1.95 GiB total capacity; 145.54 MiB already allocated; 7.31 MiB free; 160.00 MiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CON

这个原因还是很明显的，就是因为显存溢出了，我本机有亮机卡，所以会把亮机卡也当作gpu资源进行分布式训练，他显存很小啊，所以果断报错。

解决办法也很简单，搬到服务器上去训练就可以了。

RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)`

RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)`，这个问题看了比较严重，因为都涉及到cuda了，幸运的是找到了两篇相关的内容，分别是：RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm解决_Rox_Lee的博客-CSDN博客今天遇到的问题很奇怪，在相同的虚拟环境下，运行一个Pytorch的程序，在Pycharm中运行正常，但是通过命令行启动就会报上面的错误。而且在另一台服务器上，也是相同的环境，Pytorch版本一致，正常运行，这就导致这个问题更加奇怪。例如：数据传输过程中数据不时出现丢失的情况，偶尔会丢失一部分数据。https://blog.csdn.net/lxb206/article/details/130683772 RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE 解决方案之一_cuda_error_invalid_value_Tony的博客-CSDN博客解决方案：RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasSgemm( handle, opa, opb, m, n, k, α, a, lda, b, ldb, β, c, ldc)_cuda_error_invalid_valuehttps://blog.csdn.net/qq_44643484/article/details/131182670 其中在第一个中说是因为是CUBLAS的问题，可以尝试卸载虚拟环境中的CUBLAS相关包试试，但我conda list并未找到这个相关的包，所以不work。

第二个说是环境变量的原因，这个是很有可能的，因为不同的虚拟环境设置以及最开始安装cuda和cudnn的时候会有设置环境变量的操作，那这样一来，对于多用户使用的服务器来说，有这样的可能性就很大，于是我按照第二篇进行操作，即执行

unset LD_LIBRARY_PATH

ok，搞定了。

完结撒花

其他的部分只需要按照测试和微调即可，但是需要注意的是什么呢？还得在服务器上跑，在本机跑依然会报显存溢出的情况。

您可能感兴趣的与本文相关的镜像

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen

文本生成

Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

评论 40

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。