论文阅读 | TPAMI 2025 | 可见光 - 热红外微小目标检测(RGBT SOD):一个基准数据集和基线方法

题目:Visible-Thermal Tiny Object Detection: A Benchmark Dataset and Baselines
会议:TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE(TPAMI)
论文:https://doi.org/10.1109/TPAMI.2025.3544621
代码:https://github.com/XinyiYing/RGBT-Tiny
年份:2025
1.摘要&&引言
**可见光 - 热红外小目标检测(RGBT SOD)**是一项意义重大但颇具挑战的任务,在视频监控、交通监测、搜索救援等领域有着广泛应用。
小目标检测(通常指尺寸小于32×32像素的目标)因其固有的挑战性,在视频监控、自动驾驶和水上救援等领域具有重要应用价值,已成为目标检测领域一个独特且具有挑战性的研究方向。
当前小目标检测面临三大核心挑战:
-
特征表示限制:小目标尺寸极小,外观特征有限,难以有效学习特征表示;同时复杂背景杂波易导致误检
-
数据集匮乏:缺乏大规模、高质量的小目标检测专用数据集,严重制约了技术发展
-
评估指标局限:传统的基于交并比(IoU)的评估指标对小目标边界框扰动容忍度低,难以保证高定位精度
为解决上述问题,本研究构建了首个大规模RGBT小目标检测基准数据集(RGBT-Tiny),其核心创新包括:
-
双模态对齐采集:专业无人机搭载垂直排列的RGBT双镜头,通过单应性变换实现时空对齐
-
高精度标注体系:采用DarkLabel工具完成类别、边界框及遮挡等级标注,经两阶段人工审核保障质量
-
多维度覆盖:涵盖7类目标(船舶、汽车、行人等)、4城市8场景、全年不同光照条件,支持多任务研究
综上,本文做出以下贡献:
-
构建了首个大规模可见光-热红外(RGBT)双模态小目标检测数据集(RGBT-Tiny),解决了现有数据集存在的模态单一、数量不足、多样性有限、图像未对齐及目标尺寸较大等问题
-
提出了一种新型尺度自适应适应度(SAFit)度量方法,结合IoU和归一化Wasserstein距离(NWD),通过尺寸感知的sigmoid加权求和实现不同尺寸目标的稳健评估
-
开发了相应的SAFit损失函数,并基于RGBT-Tiny数据集对30种先进算法进行了全面评估,为RGBT小目标检测研究提供了新的基准和见解

图1:RGBT-Tiny数据集的示例帧。顶部展示了场景(标注数量/帧数),底部展示了序列级别的属性。粉色、绿色和黄色圆圈分别代表光照视觉水平(即H:高,M:中,L:低,In:不可见)、目标大小(即Et:极小,T:微小,S:小,M:中,L:大)以及标注密度(即S:稀疏,M:中等,D:密集)。
2.RGBT-Tiny 基准数据集
2.1 数据采集与标注规范
数据采集:我们使用专业无人机大疆 Mavic 2 作为数据采集平台,确保在极端条件下稳定飞行。无人机配备垂直排列的 RGBT 双镜头,从 60 - 100 米的高度采集 RGBT 视频序列。可见光和热红外相机的帧率为 30,在公开视频中,我们将视频序列采样为 15 帧 / 秒(FPS),以突出时间运动。热红外相机的波长为 8 - 14μm,可见光和热红外相机的图像尺寸不同(即 RGB 图像为 1080×1920,热红外图像为 512×640)。
数据调整:首先进行相机校准,去除 RGBT 图像中的镜头畸变。然后,由于 RGBT 相机的位置相对固定,我们使用单应性变换将 RGB 图像对齐到热红外图像。为了解决 RGBT 图像之间的分辨率差异,我们裁剪对齐后的 RGB 图像补丁,使其与热红外图像一致,生成分辨率为 640×512 的成对 RGBT 图像。需要注意的是,单应性变换只能在固定景深内进行帧对齐,双镜头固有的视差变化尚未得到很好的解决,这是一个值得研究的挑战。
标注真值:我们使用 DarkLabel 工具标注带有相应类别和跟踪 ID 的标注真值(GT)边界框。除了在极端条件下少数无法识别的标注外,RGBT 标注是一一对应的。为了保证标注质量,我们花费了 2000 多个小时进行两步验证:第一步,十位专业标注员分别进行标注,并相互审核;第二步,每张图像由另外两名评估人员(共五名评估人员)进行评估,不断复查标注,直到没有疑问。
训练集和测试集:为了避免数据偏差和过拟合,我们按照以下标准将训练集和测试集分别划分为 85 个和 30 个视频序列:每个子集涵盖所有类型的场景和物体;每个子集涵盖所有光照和密度变化;两个子集不重叠。
2.2 数据集统计特性
类别分布:7大类目标(船舶、汽车、骑行者、行人、公交、无人机、飞机),热红外图像中船舶、行人标注数量显著高于可见光图像;
密度分布:
稀疏(1-10目标/帧)、中等(10-50)、密集(>50);
城市道路场景密度峰值达161目标/帧;
尺度分布:
极小目标(1²-8²像素):22%;
微小目标(3²-16²像素):48%;
小目标(16²-32²像素):30%;
实际尺寸受拍摄距离与角度影响,需结合上下文信息判断;
遮挡处理:
短时遮挡(≤5帧):时间插值补全;
长时遮挡(>5帧):暂未处理;
遮挡分级:轻度(5-10帧)、中度(10-20帧)、重度(>20帧)。

图2:(a) 可见光和热红外模态下各目标类别的标注数量。数字表示每个类别在标注中所占的比例。(b) 内圈显示不同场景类别的序列数量,外圈显示场景的光照视觉分布。饼图中的数字代表每种场景类型的序列数量。图例中的数字代表每种光照视觉在标注中所占的比例。

图3:(a) 每个序列的平均每帧标注数量(即标注密度) 。每个目标类别的尺寸分布。圆越大代表密度越高,不同颜色代表不同的场景类型。(x, y, z) 是不同密度级别(即稀疏、中等、密集)的序列数量。(b) 每个目标类别的尺寸分布。不同颜色的线条代表不同的尺度级别。半径表示标注数量,每条颜色线下的面积代表每个尺度级别的标注总数。

表1:现有RGB小目标检测数据集(RGB-SOD)、热红外小目标检测数据集(T-SOD)、RGBT跟踪数据集(RGBT-T)、RGBT检测数据集(RGBT-D)与我们的RGBT-Tiny数据集之间的统计比较。“Seq.”、“Frame”、“Anno.”、“T-Cat.”和“S-Cat.”分别表示序列数量、帧数、标注数量、目标和场景类别数量。“FPS”是发布视频序列的帧率。“Split”表示数据划分方式。“Align”表示RGBT图像是否对齐(Y表示是,N表示否)。“ID”表示是否提供跟踪ID(Y表示是,N表示否)。“Pub”和“Year”分别表示出版物名称和年份。
2.3 尺度自适应适应度(SAFit)度量
归一化 Wasserstein 距离(NWD) 已被证明对小目标检测友好,因为它具有尺度不变性,并且对位置偏差具有平滑性。其公式定义为:
归一化Wasserstein距离(NWD):
N W D ( K ) = exp ( − W 2 2 ( N p , N g t ) K ) NWD(K) = \exp \left( -\frac{\sqrt{W_{2}^{2}\left( \mathcal{N}_{p}, \mathcal{N}_{gt} \right)}}{K} \right) NWD(K)=exp(−KW22(Np,Ngt))
其中:
W 2 2 ( N p , N g t ) = ∥ ( N p T , N g t T ) ∥ 2 2 W_{2}^{2}\left( \mathcal{N}_{p}, \math

:一个基准数据集和基线方法】&spm=1001.2101.3001.5002&articleId=147012955&d=1&t=3&u=757cfc8f2b7e4168a0ff08ffe9fcced0)
1941

被折叠的 条评论
为什么被折叠?



