用Docker容器玩转Jetson AGX Thor：PyTorch+CUDA环境一键部署实录

最新推荐文章于 2026-04-24 13:20:22 发布

原创

最新推荐文章于 2026-04-24 13:20:22 发布 · 1k 阅读

标签

#Jetson #PyTorch #Docker #AI开发环境

在Jetson AGX Thor上构建容器化AI开发环境：从零到一的实战指南

如果你刚拿到Jetson AGX Thor，面对这个强大的边缘计算设备，可能会被它的性能所震撼，但同时也可能为如何快速搭建一个稳定、可复现的AI开发环境而头疼。传统的本地安装方式虽然直接，但往往伴随着依赖冲突、版本不匹配、环境污染等问题，尤其是在需要频繁切换不同项目或框架版本时，这些问题会变得更加棘手。

容器化技术为这个问题提供了一个优雅的解决方案。通过Docker，我们可以将整个开发环境——包括操作系统、CUDA、PyTorch、Python包等——打包成一个独立的、可移植的容器镜像。这意味着你可以在几分钟内启动一个完全配置好的开发环境，而不用担心破坏主机系统，也无需担心在不同设备间迁移时的兼容性问题。更重要的是，NVIDIA官方提供的NGC容器镜像已经为我们预配置了经过深度优化的PyTorch和CUDA环境，这大大简化了配置过程。

这篇文章将带你从零开始，在Jetson AGX Thor上构建一个基于Docker的PyTorch+CUDA开发环境。我会分享一些在实际项目中积累的经验和技巧，帮助你避开常见的坑，让你能够专注于模型开发和算法实现，而不是环境配置。

1. 环境准备与基础配置

在开始使用Docker容器之前，我们需要确保Jetson AGX Thor的基础系统已经准备就绪。虽然Jetson设备出厂时通常已经预装了JetPack SDK，但为了获得最佳的容器化体验，还是有必要进行一些基础检查和配置。

1.1 系统状态确认

首先，让我们检查一下设备的基本信息。打开终端，运行以下命令：

# 查看系统版本和内核信息
uname -a

# 查看JetPack版本
cat /etc/nv_tegra_release

# 查看GPU信息
nvidia-smi

这些命令会输出类似下面的信息：

# uname -a 的输出示例
Linux jetson-agx-thor 5.10.104-tegra #1 SMP PREEMPT Thu Mar 14 00:00:00 UTC 2024 aarch64 aarch64 aarch64 GNU/Linux

# nvidia-smi 的输出示例
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.161.07             Driver Version: 535.161.07   CUDA Version: 12.2    |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA Jetson AGX Thor (Orin)      Off | 00000000:00:00.0 Off |                 0 |
| N/A   45C    P0              W:  0W /  0W |      0MiB / 32768MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

注意：CUDA版本信息在nvidia-smi的输出中显示的是驱动支持的最高CUDA版本，而不是当前安装的CUDA版本。实际的CUDA版本需要通过nvcc --version或检查/usr/local/cuda的符号链接来确定。

1.2 Docker安装与配置

大多数Jetson设备的最新镜像已经预装了Docker，但为了确保完整性，我们还是检查一下：

# 检查Docker是否已安装
docker --version

# 如果未安装，使用以下命令安装
sudo apt update
sudo apt install docker.io docker-compose

安装完成后，我们需要将当前用户添加到docker组，这样就不需要每次都使用sudo来运行docker命令：

# 添加当前用户到docker组
sudo usermod -aG docker $USER

# 重启docker服务
sudo systemctl restart docker

# 验证配置是否生效（需要重新登录或重启终端）
newgrp docker
docker run hello-world

如果看到"Hello from Docker!"的消息，说明Docker已经正确安装并配置好了。

1.3 NVIDIA Container Toolkit安装

为了让Docker容器能够访问Jetson的GPU，我们需要安装NVIDIA Container Toolkit。这是连接Docker和NVIDIA GPU驱动的重要桥梁。

# 添加NVIDIA Container Toolkit的GPG密钥和仓库
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | \
  sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
  sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

# 更新包列表并安装
sudo apt update
sudo apt install -y nvidia-container-toolkit

# 配置Docker使用NVIDIA运行时
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

现在，我们可以测试GPU是否能在容器中正常工作：

# 运行一个简单的CUDA测试容器
docker run --rm --runtime=nvidia --gpus all nvidia/cuda:12.2.0-base-ubuntu20.04 nvidia-smi

如果看到与主机上相似的GPU信息输出，说明GPU已经成功挂载到容器中了。

2. 选择合适的NGC容器镜像

NVIDIA GPU Cloud（NGC）提供了大量预配置的容器镜像，这些镜像针对NVIDIA硬件进行了深度优化，包含了最新的CUDA、cuDNN、TensorRT等库，以及主流的深度学习框架。对于Jetson AGX Thor用户来说，选择合适的镜像至关重要。

2.1 理解NGC镜像标签体系

NGC镜像的标签包含了丰富的信息，理解这些标签能帮助我们选择最合适的镜像。以nvcr.io/nvidia/pytorch:25.08-py3为例：

nvcr.io/nvidia/pytorch：镜像名称，表示这是PyTorch框架的官方镜像
25.08：版本标签，通常表示年份和月份（2025年8月）
py3：Python 3版本

对于Jetson设备，我们还需要特别注意架构兼容性。Jetson AGX Thor基于ARM架构（aarch64），而大多数服务器GPU基于x86_64架构。幸运的是，NVIDIA为许多主流镜像提供了多架构支持。

2.2 查找适合Jetson的镜像

访问NGC网站（https://ngc.nvidia.com）或使用命令行工具可以查找适合Jetson的镜像：

# 搜索PyTorch相关的镜像
docker search nvcr.io/nvidia/pytorch

# 查看特定镜像的标签列表
docker pull nvcr.io/nvidia/pytorch:25.08-py3
docker image inspect nvcr.io/nvidia/pytorch:25.08-py3 | grep Architecture

在实际选择时，我建议参考以下决策流程：

选择因素	推荐方案	理由
框架需求	PyTorch官方镜像	更新及时，兼容性好
Python版本	Python 3.8+	较新的Python版本有更好的性能和库支持
CUDA版本	与JetPack版本匹配	避免驱动兼容性问题
镜像大小	选择较小的变体	Jetson存储空间有限，精简镜像更实用
生产环境	选择LTS版本	长期支持版本更稳定

2.3 镜像拉取与验证

确定了合适的镜像后，我们可以开始拉取镜像。由于Jetson的ARM架构，拉取过程可能会比x86设备慢一些，特别是首次拉取时：

# 拉取PyTorch镜像
docker pull nvcr.io/nvidia/pytorch:25.08-py3

# 查看拉取的镜像信息
docker images | grep pytorch

# 验证镜像架构
docker run --rm nvcr.io/nvidia/pytorch:25.08-py3 uname -m

如果最后一条命令输出aarch64，说明这是一个ARM架构的镜像，可以在Jetson上正常运行。

提示：如果网络条件不佳，可以考虑使用镜像加速器。国内用户可以使用NVIDIA的官方镜像加速服务，或者配置Docker的registry-mirrors。

3. 容器化开发环境实战部署

有了合适的镜像，我们就可以开始构建容器化的开发环境了。这一节将详细介绍如何创建、配置和使用PyTorch开发容器。

3.1 创建并运行开发容器

首先，让我们创建一个带有GPU支持的PyTorch开发容器：

# 创建并运行容器
docker run -it --rm \
  --name pytorch-dev \
  --runtime=nvidia \
  --gpus all \
  -v /home/$USER/workspace:/workspace \
  -v /tmp/.X11-unix:/tmp/.X11-unix \
  -e DISPLAY=$DISPLAY \
  --network host \
  --privileged \
  nvcr.io/nvidia/pytorch:25.08-py3

这个命令包含了多个重要参数，让我逐一解释：

-it：交互式终端模式
--rm：容器退出时自动删除（开发时建议使用，避免积累无用容器）
--name pytorch-dev：为容器指定一个名称
--runtime=nvidia --gpus all：启用NVIDIA GPU支持
-v /home/$USER/workspace:/workspace：将主机的工作目录挂载到容器的/workspace
-v /tmp/.X11-unix:/tmp/.X11-unix -e DISPLAY=$DISPLAY：允许容器内运行GUI应用
--network host：使用主机网络模式，简化网络配置
--privileged：给予容器特权（谨慎使用，仅开发环境建议）

3.2 环境验证与测试

进入容器后，我们需要验证PyTorch和CUDA是否正常工作：

# 在容器内启动Python交互环境
python3

# 测试PyTorch和CUDA
import torch
print(f"PyTorch版本: {torch.__version__}")
print(f"CUDA是否可用: {torch.cuda.is_available()}")
print(f"CUDA版本: {torch.version.cuda}")
print(f"GPU设备数量: {torch.cuda.device_count()}")
print(f"当前GPU设备: {torch.cuda.current_device()}")
print(f"GPU设备名称: {torch.cuda.get_de

最低0.47元/天解锁文章