【论文阅读 | TPAMI 2025 | 可见光 - 热红外微小目标检测(RGBT SOD):一个基准数据集和基线方法】

在这里插入图片描述

题目:Visible-Thermal Tiny Object Detection: A Benchmark Dataset and Baselines

会议:TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE(TPAMI)

论文:https://doi.org/10.1109/TPAMI.2025.3544621

代码:https://github.com/XinyiYing/RGBT-Tiny

年份:2025

1.摘要&&引言

**可见光 - 热红外小目标检测(RGBT SOD)**是一项意义重大但颇具挑战的任务,在视频监控、交通监测、搜索救援等领域有着广泛应用。

小目标检测(通常指尺寸小于32×32像素的目标)因其固有的挑战性,在视频监控、自动驾驶和水上救援等领域具有重要应用价值,已成为目标检测领域一个独特且具有挑战性的研究方向。

当前小目标检测面临三大核心挑战

  • ​​特征表示限制​​:小目标尺寸极小,外观特征有限,难以有效学习特征表示;同时复杂背景杂波易导致误检

  • ​​数据集匮乏​​:缺乏大规模、高质量的小目标检测专用数据集,严重制约了技术发展

  • 评估指标局限​​:传统的基于交并比(IoU)的评估指标对小目标边界框扰动容忍度低,难以保证高定位精度

为解决上述问题,本研究构建了首个大规模RGBT小目标检测基准数据集(RGBT-Tiny),其核心创新包括:

  • 双模态对齐采集​​:专业无人机搭载垂直排列的RGBT双镜头,通过单应性变换实现时空对齐

  • 高精度标注体系​​:采用DarkLabel工具完成类别、边界框及遮挡等级标注,经两阶段人工审核保障质量

  • 多维度覆盖​​:涵盖7类目标(船舶、汽车、行人等)、4城市8场景、全年不同光照条件,支持多任务研究

综上,本文做出以下贡献

  • 构建了首个大规模可见光-热红外(RGBT)双模态小目标检测数据集(RGBT-Tiny),解决了现有数据集存在的模态单一、数量不足、多样性有限、图像未对齐及目标尺寸较大等问题

  • 提出了一种新型尺度自适应适应度(SAFit)度量方法,结合IoU和归一化Wasserstein距离(NWD),通过尺寸感知的sigmoid加权求和实现不同尺寸目标的稳健评估

  • 开发了相应的SAFit损失函数,并基于RGBT-Tiny数据集对30种先进算法进行了全面评估,为RGBT小目标检测研究提供了新的基准和见解

在这里插入图片描述

图1:RGBT-Tiny数据集的示例帧。顶部展示了场景(标注数量/帧数),底部展示了序列级别的属性。粉色、绿色和黄色圆圈分别代表光照视觉水平(即H:高,M:中,L:低,In:不可见)、目标大小(即Et:极小,T:微小,S:小,M:中,L:大)以及标注密度(即S:稀疏,M:中等,D:密集)。

2.RGBT-Tiny 基准数据集

2.1 数据采集与标注规范

数据采集:我们使用专业无人机大疆 Mavic 2 作为数据采集平台,确保在极端条件下稳定飞行。无人机配备垂直排列的 RGBT 双镜头,从 60 - 100 米的高度采集 RGBT 视频序列。可见光和热红外相机的帧率为 30,在公开视频中,我们将视频序列采样为 15 帧 / 秒(FPS),以突出时间运动。热红外相机的波长为 8 - 14μm,可见光和热红外相机的图像尺寸不同(即 RGB 图像为 1080×1920,热红外图像为 512×640)。

数据调整:首先进行相机校准,去除 RGBT 图像中的镜头畸变。然后,由于 RGBT 相机的位置相对固定,我们使用单应性变换将 RGB 图像对齐到热红外图像。为了解决 RGBT 图像之间的分辨率差异,我们裁剪对齐后的 RGB 图像补丁,使其与热红外图像一致,生成分辨率为 640×512 的成对 RGBT 图像。需要注意的是,单应性变换只能在固定景深内进行帧对齐,双镜头固有的视差变化尚未得到很好的解决,这是一个值得研究的挑战。

标注真值:我们使用 DarkLabel 工具标注带有相应类别和跟踪 ID 的标注真值(GT)边界框。除了在极端条件下少数无法识别的标注外,RGBT 标注是一一对应的。为了保证标注质量,我们花费了 2000 多个小时进行两步验证:第一步,十位专业标注员分别进行标注,并相互审核;第二步,每张图像由另外两名评估人员(共五名评估人员)进行评估,不断复查标注,直到没有疑问。

训练集和测试集:为了避免数据偏差和过拟合,我们按照以下标准将训练集和测试集分别划分为 85 个和 30 个视频序列:每个子集涵盖所有类型的场景和物体;每个子集涵盖所有光照和密度变化;两个子集不重叠。

2.2 数据集统计特性

​​类别分布​​:7大类目标(船舶、汽车、骑行者、行人、公交、无人机、飞机),热红外图像中船舶、行人标注数量显著高于可见光图像;

​​密度分布​​
稀疏(1-10目标/帧)、中等(10-50)、密集(>50);
城市道路场景密度峰值达161目标/帧;

​​尺度分布​​:
极小目标(1²-8²像素):22%;
微小目标(3²-16²像素):48%;
小目标(16²-32²像素):30%;
实际尺寸受拍摄距离与角度影响,需结合上下文信息判断;

​​遮挡处理​​:
短时遮挡(≤5帧):时间插值补全;
长时遮挡(>5帧):暂未处理;
遮挡分级:轻度(5-10帧)、中度(10-20帧)、重度(>20帧)。

在这里插入图片描述

图2:(a) 可见光和热红外模态下各目标类别的标注数量。数字表示每个类别在标注中所占的比例。(b) 内圈显示不同场景类别的序列数量,外圈显示场景的光照视觉分布。饼图中的数字代表每种场景类型的序列数量。图例中的数字代表每种光照视觉在标注中所占的比例。

在这里插入图片描述

图3:(a) 每个序列的平均每帧标注数量(即标注密度) 。每个目标类别的尺寸分布。圆越大代表密度越高,不同颜色代表不同的场景类型。(x, y, z) 是不同密度级别(即稀疏、中等、密集)的序列数量。(b) 每个目标类别的尺寸分布。不同颜色的线条代表不同的尺度级别。半径表示标注数量,每条颜色线下的面积代表每个尺度级别的标注总数。

在这里插入图片描述

表1:现有RGB小目标检测数据集(RGB-SOD)、热红外小目标检测数据集(T-SOD)、RGBT跟踪数据集(RGBT-T)、RGBT检测数据集(RGBT-D)与我们的RGBT-Tiny数据集之间的统计比较。“Seq.”、“Frame”、“Anno.”、“T-Cat.”和“S-Cat.”分别表示序列数量、帧数、标注数量、目标和场景类别数量。“FPS”是发布视频序列的帧率。“Split”表示数据划分方式。“Align”表示RGBT图像是否对齐(Y表示是,N表示否)。“ID”表示是否提供跟踪ID(Y表示是,N表示否)。“Pub”和“Year”分别表示出版物名称和年份。

2.3 尺度自适应适应度(SAFit)度量

归一化 Wasserstein 距离(NWD) 已被证明对小目标检测友好,因为它具有尺度不变性,并且对位置偏差具有平滑性。其公式定义为:

​归一化Wasserstein距离(NWD)​​:
N W D ( K ) = exp ⁡ ( − W 2 2 ( N p , N g t ) K ) NWD(K) = \exp \left( -\frac{\sqrt{W_{2}^{2}\left( \mathcal{N}_{p}, \mathcal{N}_{gt} \right)}}{K} \right) NWD(K)=exp(KW22(Np,Ngt) )
其中:
W 2 2 ( N p , N g t ) = ∥ ( N p T , N g t T ) ∥ 2 2 W_{2}^{2}\left( \mathcal{N}_{p}, \math

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值