一、版本精准匹配 (最关键步骤!)
这是搭建过程中最容易出错的环节,顺序不能错。
-
确定显卡驱动与支持的CUDA版本
-
操作:打开
NVIDIA控制面板->帮助->系统信息->组件。 -
查找:找到
NVCUDA64.DLL对应的产品名称,例如NVIDIA CUDA 12.6.65 driver。这表示你的显卡最高支持CUDA 12.6。你需要安装不高于此版本的CUDA。
-
-
确定你要安装的深度学习框架版本
-
PyTorch:访问 PyTorch官网 ,查看官方推荐哪个CUDA版本(例如,PyTorch 2.4.1 官方推荐 CUDA 12.4)。
-
TensorFlow:访问 TensorFlow官网 ,查看
GPU支持的版本对应表。
-
-
最终确定三个组件的版本组合
-
黄金法则:
显卡驱动版本≥CUDA版本(需要) ≥cuDNN版本(需要) ≥TensorFlow/PyTorch要求的版本。 -
目标:选一个同时被你的驱动支持和被框架官方推荐的CUDA版本。
-
示例组合 (基于你提供的资料):
组件 版本示例1 (PyTorch) 版本示例2 (TensorFlow) NVIDIA驱动 需支持 CUDA 12.4 (例如 560.94+) 需支持 CUDA 11.8 CUDA Toolkit 12.4.0 11.8.0 cuDNN 9.3.0 (或为CUDA 12.x编译的版本) 8.9.0 (或为CUDA 11.x编译的版本) PyTorch 2.4.1 (cu124) - TensorFlow - 2.13.0 / 2.14.0 Python 3.9 / 3.10 3.9 / 3.10
-
二、安装CUDA和cuDNN
-
下载
-
CUDA:从 CUDA Toolkit Archive 下载你确定好的版本。
-
cuDNN:从 cuDNN Download 下载,必须选择与CUDA版本匹配的cuDNN版本。需要注册NVIDIA账号。
-
-
安装CUDA
-
运行下载的
.exe文件。临时解压路径保持默认即可(安装后会自动删除)。 -
安装选项选择 自定义(高级)。
-
关键点:在组件树中,取消勾选
Visual Studio Integration,其他保持默认。这能避免很多安装问题。 -
安装路径建议保持默认的C盘,因为很多程序会硬编码查找此路径。
-
-
安装cuDNN
-
这本质上是文件复制。下载的cuDNN是一个压缩包,解压后得到
bin,include,lib三个文件夹。 -
打开CUDA的安装文件夹 (默认路径:
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4)。 -
将cuDNN解压出的三个文件夹里的内容,分别复制到CUDA安装文件夹的对应同名文件夹中。
-
-
配置环境变量 (通常会自动配置,但建议检查)
-
确保以下路径在系统的
PATH环境变量中:-
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin -
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\libnvvp -
C:\Program Files\NVIDIA\CUDNN\v9.3\bin(cuDNN路径,具体取决于你的安装)
-
-
-
验证CUDA安装
-
打开
cmd,输入nvcc --version,应显示你安装的CUDA版本信息。 -
进入
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\demo_suite,运行bandwidthTest.exe和deviceQuery.exe,结果应为PASS。
-
三、创建独立虚拟环境并安装框架
强烈建议为每个框架创建独立环境,避免版本冲突。
-
创建并激活环境
-
打开 Anaconda Prompt (miniforge或Anaconda均可)。
-
创建PyTorch环境示例:
bash
conda create -n torch-gpu python=3.9 conda activate torch-gpu
-
创建TensorFlow环境示例:
bash
conda create -n tf-gpu python=3.9 conda activate tf-gpu
-
-
安装PyTorch GPU版本
-
访问 PyTorch官网,选择你的版本配置,官网会生成安装命令。
-
推荐使用
pip安装 (conda有时版本较旧)。例如,安装CUDA 12.4版本:bash
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
-
验证:
python
import torch print(torch.__version__) # 应显示版本号 print(torch.cuda.is_available()) # 应输出 True
-
-
安装TensorFlow GPU版本
-
注意:TensorFlow 2.10 是最后一个原生支持Windows GPU的版本。2.11+在Windows上需要WSL2。
-
推荐使用
pip安装:bash
pip install tensorflow-gpu==2.13.0 # 示例版本,根据你的CUDA选择
-
验证:
python
import tensorflow as tf print(tf.__version__) # 应显示版本号 print(tf.config.list_physical_devices('GPU')) # 应显示你的GPU信息
-
四、避坑指南与常见问题
| 问题分类 | 常见错误 | 解决方法 |
|---|---|---|
| 版本问题 | cuda is not available | 90%的原因是版本不匹配。重新核对第一步的版本组合。检查显卡驱动是否支持你安装的CUDA版本。 |
| 路径问题 | nvcc 不是内部命令 | CUDA的 bin 目录没有加到系统 PATH 环境变量中,手动添加并重启cmd。 |
| 安装问题 | CUDA安装失败 | 安装时务必取消勾选 Visual Studio Integration。关闭所有杀毒软件。 |
| 环境问题 | Jupyter Notebook无法调用新环境 | 在创建并激活新环境后,执行 conda install ipykernel,然后 python -m ipykernel install --user --name 你的环境名。 |
| 下载问题 | pip/conda下载极慢 | 换国内源(清华、阿里云)。pip命令后加 -i https://pypi.tuna.tsinghua.edu.cn/simple。 |

2248

被折叠的 条评论
为什么被折叠?



