问题
在Nvidia驱动正常安装,nvidia-smi正常显示的情况下,在anaconda环境下跑常规的深度学习框架(tensorflow,pytorch,paddlepaddle等等)的时候,一般不需要额外安装CUDA或cuDNN等工具,而是直接conda安装cudatoolkit就可以。具体的cudatoolkit版本选择,一般按照nvidia-smi的显示,选择与其一致的cudatoolkit版本即可。有些时候特殊的包需要特殊版本的cudatoolkit(比如paddlepaddle),那么按包的要求来即可。
但是今天在使用PaddleOCR的时候就遇到了如下报错:
RuntimeError: (PreconditionNotMet) Cannot load cudnn shared library. Cannot invoke method cudnnGetVersion.
[Hint: cudnn_dso_handle should not be null.] (at /paddle/paddle/phi/backends/dynload/cudnn.cc:60)
思路
上网查了一下,通过阅读其他教程解决此问题的思路,很容易理解这个问题就是找不到libcudart.so, libcudnn.so, libcudnn_*.so等文件。但是其他教程给出的方案都很离谱,要么要求额外安装CUDA或cuDNN等工具,要么直接下载这些文件,并拷贝到/usr/lib等系统路径上去。我首先来驳斥一下这些方案的不合理之处:
- 其他的深度学习框架(比如pytorch)不需要额外安装CUDA或cuDNN就可以运行,说明cudatoolkit已经提供了够用的utilities.
/usr/lib,/usr/bin等已经在我的PATH里面,但是依然没有影响该bug的复现。
由以上两点,额外安装CUDA或cuDNN来解决该问题是不靠谱的,

在Nvidia驱动和cudatoolkit正常安装的情况下,运行PaddleOCR出现RuntimeError,问题在于Python无法找到libcudart.so和libcudnn.so等库文件。解决方法是找到conda环境中的lib目录,将库文件路径添加到LD_LIBRARY_PATH中,而非额外安装CUDA或cuDNN。

40

被折叠的 条评论
为什么被折叠?



