概要
本地运行环境:tensorflow-gpu1.2.0,Python3.6,cuda 8,cudnn 5.1
服务器环境: cuda 11.7
在本地跑代码会爆显存,所以想用组里的服务器来训练模型,由于使用的事tensorflow的gpu版本,所以需要对应的cuda和cudnn版本。使用的是Red hat的服务器,由于服务器的cuda版本较新,所以无法运行tensorflow-gpu1.2.0支持的代码,而且我没有root权限,所以也无法直接安装自己所需的cuda和cudnn版本。服务器已经安装podman-4.6.1
服务器安装podman容器,并借助Gpu进行深度强化学习训练。
- podman拉取镜像
podman pull nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04
报错:
rror: initializing source docker://nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04: Get "https://nvcr.io/proxy_auth?scope=repository%3Anvidia%2Fcuda%3Apull": tls: failed to verify certificate: x509: certificate is valid for *.cmtelematics.com, cmtelematics.com, not nvcr.io
这个错误表明,在使用Podman从nvcr.io拉取镜像时,TLS证书验证失败,导致无法建立安全的连接。这可能是由于你的网络环境或者镜像源配置的问题。
2. 禁用TLS验证(会降低连接的安全性,可能不适合生产环境)
podman pull --tls-verify=false nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04
Trying to pull nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04...
Getting image source signatures
Copying blob a6146334b4d9 done
Copying blob b51569e7c507 done
Copying blob 847af351305b done
Copying blob 58690f9b18fc done
Copying blob da8ef40b9eca done
Copying blob fb15d46c38dc done
Copying blob 454777287352 done
Copying blob 5a4223015407 done
Copying blob 061b84ac7eb5 done
Copying blob bfd547a64626 done
Copying blob 1cf331c5209a done
Copying blob b74095f662ae done
Copying config 9533c5da34 done
Writing manifest to image destination
9533c5da3485e93fddfc3f263be11256cc6d87997aa5f327eeb542d0d4958c99
(tf-1.2.0) (base) [02@gpu04 tensorflow_container]$ podman images
REPOSITORY TAG IMAGE ID CREATED SIZE
nvcr.io/nvidia/cuda 8.0-cudnn5-devel-ubuntu16.04 9533c5da3485 2 years ago 1.87 GB
以上信息表示:nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04镜像拉取成功。
- 利用镜像创建容器
podman run --gpus all --name tf_gpu1.2.0_cont


201

被折叠的 条评论
为什么被折叠?



