【论文阅读 | TPAMI 2025 | 可见光 - 热红外微小目标检测（RGBT SOD）：一个基准数据集和基线方法】

原创

已于 2025-08-21 15:15:42 修改 · 4.9k 阅读

标签

#论文阅读 #目标检测 #目标跟踪

于 2025-04-05 17:41:22 首次发布

论文阅读 | TPAMI 2025 | 可见光 - 热红外微小目标检测（RGBT SOD）：一个基准数据集和基线方法

1.摘要&&引言
2.RGBT-Tiny 基准数据集
3.实验
- 3.1 尺度自适应适应度度量SAFit
- 3.2 基线结果
4.结论

在这里插入图片描述

题目：Visible-Thermal Tiny Object Detection: A Benchmark Dataset and Baselines

会议：TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE（TPAMI）

论文：https://doi.org/10.1109/TPAMI.2025.3544621

代码：https://github.com/XinyiYing/RGBT-Tiny

年份：2025

1.摘要&&引言

**可见光 - 热红外小目标检测（RGBT SOD）**是一项意义重大但颇具挑战的任务，在视频监控、交通监测、搜索救援等领域有着广泛应用。

小目标检测（通常指尺寸小于32×32像素的目标）因其固有的挑战性，在视频监控、自动驾驶和水上救援等领域具有重要应用价值，已成为目标检测领域一个独特且具有挑战性的研究方向。

当前小目标检测面临三大核心挑战：

特征表示限制：小目标尺寸极小，外观特征有限，难以有效学习特征表示；同时复杂背景杂波易导致误检
数据集匮乏：缺乏大规模、高质量的小目标检测专用数据集，严重制约了技术发展
评估指标局限：传统的基于交并比(IoU)的评估指标对小目标边界框扰动容忍度低，难以保证高定位精度

为解决上述问题，本研究构建了首个大规模RGBT小目标检测基准数据集（RGBT-Tiny），其核心创新包括：

双模态对齐采集：专业无人机搭载垂直排列的RGBT双镜头，通过单应性变换实现时空对齐
高精度标注体系：采用DarkLabel工具完成类别、边界框及遮挡等级标注，经两阶段人工审核保障质量
多维度覆盖：涵盖7类目标（船舶、汽车、行人等）、4城市8场景、全年不同光照条件，支持多任务研究

综上，本文做出以下贡献：

构建了首个大规模可见光-热红外(RGBT)双模态小目标检测数据集(RGBT-Tiny)，解决了现有数据集存在的模态单一、数量不足、多样性有限、图像未对齐及目标尺寸较大等问题
提出了一种新型尺度自适应适应度(SAFit)度量方法，结合IoU和归一化Wasserstein距离(NWD)，通过尺寸感知的sigmoid加权求和实现不同尺寸目标的稳健评估
开发了相应的SAFit损失函数，并基于RGBT-Tiny数据集对30种先进算法进行了全面评估，为RGBT小目标检测研究提供了新的基准和见解

在这里插入图片描述

图1：RGBT-Tiny数据集的示例帧。顶部展示了场景（标注数量/帧数），底部展示了序列级别的属性。粉色、绿色和黄色圆圈分别代表光照视觉水平（即H：高，M：中，L：低，In：不可见）、目标大小（即Et：极小，T：微小，S：小，M：中，L：大）以及标注密度（即S：稀疏，M：中等，D：密集）。

2.RGBT-Tiny 基准数据集

2.1 数据采集与标注规范

数据采集：我们使用专业无人机大疆 Mavic 2 作为数据采集平台，确保在极端条件下稳定飞行。无人机配备垂直排列的 RGBT 双镜头，从 60 - 100 米的高度采集 RGBT 视频序列。可见光和热红外相机的帧率为 30，在公开视频中，我们将视频序列采样为 15 帧 / 秒（FPS），以突出时间运动。热红外相机的波长为 8 - 14μm，可见光和热红外相机的图像尺寸不同（即 RGB 图像为 1080×1920，热红外图像为 512×640）。

数据调整：首先进行相机校准，去除 RGBT 图像中的镜头畸变。然后，由于 RGBT 相机的位置相对固定，我们使用单应性变换将 RGB 图像对齐到热红外图像。为了解决 RGBT 图像之间的分辨率差异，我们裁剪对齐后的 RGB 图像补丁，使其与热红外图像一致，生成分辨率为 640×512 的成对 RGBT 图像。需要注意的是，单应性变换只能在固定景深内进行帧对齐，双镜头固有的视差变化尚未得到很好的解决，这是一个值得研究的挑战。

标注真值：我们使用 DarkLabel 工具标注带有相应类别和跟踪 ID 的标注真值（GT）边界框。除了在极端条件下少数无法识别的标注外，RGBT 标注是一一对应的。为了保证标注质量，我们花费了 2000 多个小时进行两步验证：第一步，十位专业标注员分别进行标注，并相互审核；第二步，每张图像由另外两名评估人员（共五名评估人员）进行评估，不断复查标注，直到没有疑问。

训练集和测试集：为了避免数据偏差和过拟合，我们按照以下标准将训练集和测试集分别划分为 85 个和 30 个视频序列：每个子集涵盖所有类型的场景和物体；每个子集涵盖所有光照和密度变化；两个子集不重叠。

2.2 数据集统计特性

类别分布：7大类目标（船舶、汽车、骑行者、行人、公交、无人机、飞机），热红外图像中船舶、行人标注数量显著高于可见光图像；

密度分布：
稀疏（1-10目标/帧）、中等（10-50）、密集（>50）；
城市道路场景密度峰值达161目标/帧；

尺度分布：
极小目标（1²-8²像素）：22%；
微小目标（3²-16²像素）：48%；
小目标（16²-32²像素）：30%；
实际尺寸受拍摄距离与角度影响，需结合上下文信息判断；

遮挡处理：
短时遮挡（≤5帧）：时间插值补全；
长时遮挡（>5帧）：暂未处理；
遮挡分级：轻度（5-10帧）、中度（10-20帧）、重度（>20帧）。

在这里插入图片描述

图2：(a) 可见光和热红外模态下各目标类别的标注数量。数字表示每个类别在标注中所占的比例。(b) 内圈显示不同场景类别的序列数量，外圈显示场景的光照视觉分布。饼图中的数字代表每种场景类型的序列数量。图例中的数字代表每种光照视觉在标注中所占的比例。

在这里插入图片描述

图3：(a) 每个序列的平均每帧标注数量（即标注密度）。每个目标类别的尺寸分布。圆越大代表密度越高，不同颜色代表不同的场景类型。(x, y, z) 是不同密度级别（即稀疏、中等、密集）的序列数量。(b) 每个目标类别的尺寸分布。不同颜色的线条代表不同的尺度级别。半径表示标注数量，每条颜色线下的面积代表每个尺度级别的标注总数。

在这里插入图片描述

表1：现有RGB小目标检测数据集（RGB-SOD）、热红外小目标检测数据集（T-SOD）、RGBT跟踪数据集（RGBT-T）、RGBT检测数据集（RGBT-D）与我们的RGBT-Tiny数据集之间的统计比较。“Seq.”、“Frame”、“Anno.”、“T-Cat.”和“S-Cat.”分别表示序列数量、帧数、标注数量、目标和场景类别数量。“FPS”是发布视频序列的帧率。“Split”表示数据划分方式。“Align”表示RGBT图像是否对齐（Y表示是，N表示否）。“ID”表示是否提供跟踪ID（Y表示是，N表示否）。“Pub”和“Year”分别表示出版物名称和年份。

2.3 尺度自适应适应度（SAFit）度量

归一化 Wasserstein 距离（NWD）已被证明对小目标检测友好，因为它具有尺度不变性，并且对位置偏差具有平滑性。其公式定义为：

归一化Wasserstein距离（NWD）：
$\exp \left( -\frac{\sqrt{W_{2}^{2}\left( \mathcal{N}_{p}, \mathcal{N}_{gt} \right)}}{K} \right)$
其中：
$W_{2}^{2}\left( \mathcal{N}_{p}, \math$

最低0.47元/天解锁文章