服务器上通过podman容器运行需要较低版本cuda的代码

原创

已于 2024-09-14 08:49:24 修改 · 969 阅读

标签

#服务器 #podman #tensorflow #深度学习

于 2024-08-22 10:35:20 首次发布

文章目录

- 概要
- 服务器安装podman容器，并借助Gpu进行深度强化学习训练。

概要

本地运行环境：tensorflow-gpu1.2.0，Python3.6，cuda 8，cudnn 5.1
服务器环境： cuda 11.7
在本地跑代码会爆显存，所以想用组里的服务器来训练模型，由于使用的事tensorflow的gpu版本，所以需要对应的cuda和cudnn版本。使用的是Red hat的服务器，由于服务器的cuda版本较新，所以无法运行tensorflow-gpu1.2.0支持的代码，而且我没有root权限，所以也无法直接安装自己所需的cuda和cudnn版本。服务器已经安装podman-4.6.1

服务器安装podman容器，并借助Gpu进行深度强化学习训练。

podman拉取镜像

podman pull nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04

报错：

rror: initializing source docker://nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04: Get "https://nvcr.io/proxy_auth?scope=repository%3Anvidia%2Fcuda%3Apull": tls: failed to verify certificate: x509: certificate is valid for *.cmtelematics.com, cmtelematics.com, not nvcr.io

这个错误表明，在使用Podman从nvcr.io拉取镜像时，TLS证书验证失败，导致无法建立安全的连接。这可能是由于你的网络环境或者镜像源配置的问题。
2. 禁用TLS验证（会降低连接的安全性，可能不适合生产环境）

podman pull --tls-verify=false nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04

Trying to pull nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04...
Getting image source signatures
Copying blob a6146334b4d9 done  
Copying blob b51569e7c507 done  
Copying blob 847af351305b done  
Copying blob 58690f9b18fc done  
Copying blob da8ef40b9eca done  
Copying blob fb15d46c38dc done  
Copying blob 454777287352 done  
Copying blob 5a4223015407 done  
Copying blob 061b84ac7eb5 done  
Copying blob bfd547a64626 done  
Copying blob 1cf331c5209a done  
Copying blob b74095f662ae done  
Copying config 9533c5da34 done  
Writing manifest to image destination
9533c5da3485e93fddfc3f263be11256cc6d87997aa5f327eeb542d0d4958c99
(tf-1.2.0) (base) [02@gpu04 tensorflow_container]$ podman images
REPOSITORY                           TAG                           IMAGE ID      CREATED      SIZE

nvcr.io/nvidia/cuda                  8.0-cudnn5-devel-ubuntu16.04  9533c5da3485  2 years ago  1.87 GB

以上信息表示：nvcr.io/nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04镜像拉取成功。

利用镜像创建容器

podman run --gpus all --name tf_gpu1.2.0_cont

最低0.47元/天解锁文章