TAO toolkit 训练UNET 踩坑记录解决mask与image无法对齐问题

最新推荐文章于 2026-06-20 15:45:44 发布

原创最新推荐文章于 2026-06-20 15:45:44 发布 · 556 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#计算机视觉 #目标检测 #深度学习

文章介绍了在使用TAO框架训练Unet时遇到的图像与掩码配对问题，强调了txt文件的正确编写和配置文件调整的重要性，包括数据集格式、config.txt的设置以及docker和NVIDIA环境的管理。

先说结论，如果在使用TAO 训练Unet时候发生image与mask没有对齐（配对混乱），要自己写train_image.txt 那几个txt文件，注意文件内图片的顺序务必 train 的image 和mask 保持一致。

1. TAO框架白话介绍：

TAO toolkit 简单来说是一个基于 tao（python端软件）+ nvidia docker（对应tao容器）的一个工具集合，主要用于跑模型训练、剪枝量化、模型输出、数据集处理的框架，优势是不用安装那么多依赖，只需要搭建一个nvidiadocker的环境请参考TAO Toolkit Quick Start Guide - NVIDIA Docs进行安装（请注意，nvidiadocker目前是2版本了，安装过程跟网上的可能不同）在拉起的容器内就可以做这些工作省去各种麻烦的依赖安装步骤。

TAO框架有几个典型的容器 tensorflow2 tensorflow1 以及pytorch 三个（如果不是定制没啥区别，我本来用pytorch的，误拉起TF1的容器也是一样的操作没区别）

正文开始：

1. 安装的坑：

1.1 如果你在标准UBUNTU上安装，可能会遇到docker启动时候需要sudo的问题，这块需要注意，如果不像每次启动都sudo需要上网查一下

1.2 安装NGC时候提示的password 实际上是生成的apikey 需要在提示的网址那边去生成一个。

2. 启动的坑：

2.1 tao启动命令里的参数对应的文件路径，都是容器内的路径，不是本机路径哦

2.2 在sudo情况下.tao_mounts.json 要放到/root文件夹下：由于我这边没有root用户权限（只有sudo权限不能su），每次启动tao时候都是用 sudo tao xx来启动的，在教程中将配置文件.tao_mounts.json 放到~/ 这一步在我这里就变成了要放到/root用户下默认的~/ 是home文件夹这里要注意，不然你会发现容器起来以后总说各种文件找不到。

3. NGC下载东西要科学上网...

4. 针对UNET 的坑：

1. 数据集按照说明是有两种格式的（其实只有第二种能用）：1. 利用txt文件索引 2.按照预定的格式存放，这里注意，第二种我试过了，试了一周都不行，各种问题(主要是乱套了，mask跟image对不上)，直接用 TXT文件索引，注意mask 和 image 这两个文件的顺序要对上。txt文件内的文件路径要是容器内的路径，这里要参考.tao_mounts.json的映射来确定路径哦！

2. 配置 config.txt时候（教程里放到specs那个）的data_clase_config时候 label_id 要跟mask文件中的你要的部分的对应像素值对应例如我的标注黑色是背景，白色是要提取的东西则需要这样写 data_class_config {
target_classes {
name: "foreground"
mapping_class: "foreground"
label_id: 255
}
target_classes {
name: "background"
mapping_class: "background"
label_id: 0
}
}

如果单张MASK中有多个类别，则需要不同的类是不同像素值例如猫咪狗狗背景则应该是 255 128 0 在这个mask文件中有三个值（不必是0就是背景，只要对应上就ok）。与cityscapes 标注类型中的 _idLabels.png中是一样的，在config中的target_classes的label_id 设置为 255 128 0 这三个值

3. mask 对应的图片格式应该是 PIL图像中的"L" 而不是 "1"

4. 在使用三色图片时候 config 中 input_image_type: "color"

5. 在training_config中添加 visualizer{
enabled:true
} 可以开启tensorboard 对debug很有用