论文阅读 | CVPR 2024 |RSDet:去除再选择:一种用于 RGB - 红外目标检测的由粗到精融合视角

题目:Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection
会议:Computer Vision and Pattern Recognition(CVPR)
论文:https://arxiv.org/abs/2401.10731
代码:https://github.com/Zhao-Tian-yi/RSDet.git
年份:2024
1.摘要&&引言
近年来,利用可见光(RGB)和热红外(IR)图像的目标检测技术已受到广泛关注,并在众多领域得到广泛应用。通过利用 RGB 和 IR 图像之间的互补特性,目标检测任务能够在从白天到夜间的各种光照条件下实现可靠且鲁棒的目标定位。大多数现有的多模态目标检测方法直接将 RGB 和 IR 图像输入深度神经网络,导致检测性能较差。
我们认为,这一问题不仅源于有效融合多模态信息的挑战,还源于 RGB 和 IR 模态中均存在冗余特征。每种模态的冗余信息会在传播过程中加剧融合不精确的问题。
为解决这一问题,我们从人脑处理多模态信息的机制中获得启发,提出了一种新颖的由粗到精的特征净化与融合视角。
具体而言,基于这一视角,我们设计了冗余光谱去除模块(Redundant Spectrum Removal module)以粗略去除各模态内的干扰信息,并设计了动态特征选择模块(Dynamic Feature Selection module)以精细选择所需特征用于特征融合。为验证由粗到精融合策略的有效性,我们构建了一种新的目标检测器,称为先去除后选择检测器(Removal then Selection Detector,RSDet)。

图1. 现有RGB-红外特征融合结构与我们提出的框架的对比。
在 RGB - 红外目标检测中,有效的 RGB 与红外图像特征融合方法至关重要。大多数现有方法独立提取 RGB 和红外图像的模态特定特征,然后直接对特征执行相加或拼接操作,如图 1(a)所示。
由于缺乏显式的跨模态融合,这种 “晚期融合” 策略在学习互补信息方面存在局限,导致性能较差。为探索最优融合策略,许多研究人员提出 “中途融合” 策略,设计不同模态特征间的交互模块,如图 1(b)所示。
例如,Zhou 等人 构建 MBNet 以挖掘 RGB 与红外模态差异,在特征层面引入更多有用信息;Xie 等人 提出动态跨模态模块,聚合来自两种模态的局部和全局特征。尽管这些方法取得了一定进展,但它们仅显式强化互补信息的学习,却忽略了冗余特征在传播过程中的负面影响,导致互补融合难以有效实现。
事实上,人类大脑处理多模态信息时,首先会过滤干扰信息,再精细选择所需信息,这一过程在认知理论(“衰减理论”)中被建模为 “由粗到精” 的机制。受此启发,我们提出一种融合 RGB 与红外特征的新视角,如图 1(c)所示.
我们设计了 “由粗到精融合” 策略以实现特征互补融合。
- “粗” 指首先过滤干扰信息,粗略去除无关光谱:鉴于图像冗余信息存在于频谱中 ,我们提出冗余光谱去除(RSR)模块,通过将图像转换至频域并引入动态滤波器,自适应抑制 RGB 和红外模态内的无关频谱。
- “精” 指在粗过滤后进行特征精细选择:我们设计动态特征选择(DFS)模块,通过探索尺度感知专家混合(mixture of scale-aware experts),对目标检测所需的不同尺度特征进行加权,实现模态间所需特征的精准筛选。

图2. 我们的由粗到精融合方法的有效性。(a)为当前的中途融合方法,其直接提取的特征受到来自RGB图像的背景信息干扰,并对最终融合的特征产生抑制作用,这将导致检测结果较差。(b)我们的由粗到精融合方法能够减少无关信息并选择所需特征进行融合,从而实现更优的性能。
图 2 可视化了由粗到精融合策略的示例结果。为验证该策略的有效性,我们构建了嵌入该融合机制的新型检测框架 —— 先去除后选择检测器(Removal then Selection Detector,RSDet)。
2. 方法
2.1 “由粗到细”融合策略
提出的 “由粗到细” 融合策略灵感来源于人类信息处理的认知模型,特别是认知心理学中的选择性注意理论。典型例子包括布罗德本特的过滤器模型 和特雷斯曼的衰减模型,这些模型构成了认知心理学中注意机制理论的基石。
如图 4 所示,特雷斯曼的衰减模型认为,人脑在处理多个刺激时,会首先根据特定标准对不重要或无关的信息进行衰减,然后对剩余信息进行更精细化的处理 —— 通过细致的分层分析与加工,提取有意义的特征和见解,最终将处理后的信息送入大脑的工作记忆。

图4. 特雷斯曼衰减模型示意图
受特雷斯曼衰减模型的启发,我们设计了"由粗到细"融合策略。
"粗"对应冗余光谱去除(RSR)模块,用于在频域进行粗粒度过滤;"细"对应动态特征选择(DFS)模块,用于在RGB-红外模态间精细选择所需特征。
由于两种模态的特征常存在交叉,我们引入解耦表示学习对其进行纯化和分离,以实现互补融合。

图3. 由粗到细融合策略的整体框架图,其主要由冗余光谱去除模块和动态特征选择模块组成。基于该融合策略,构建了一个完整的目标检测器——去除与选择检测器(RSDet),以评估其有效性。
如图3所示,我们将RSR和DFS模块集成到共享-特定结构中,以实现"由粗到细"融合。具体步骤如下:
- 首先,将RGB( V V V)和红外( I I I)图像分别输入RSR模块,去除干扰信息,得到剔除无关冗余光谱的图像 V ′ V' V′和 I ′ I' I′。
- 然后,引入共享-特定结构提取两种模态的特定多尺度特征 C I - s p c C_{I\text{-}spc} CI-spc和 C V - s p e c C_{V\text{-}spec} CV-spec,该结构采用ResNet作为主干网络。对于共享特征 C s h a C_{sha} Csha,我们同样使用若干ResBlock作为特征提取器。
- 随后,将这些不同尺度的特定特征 C I - s p c C_{I\text{-}spc} CI-spc和 C V - s p e C_{V\text{-}spe} CV-spe输入DFS模块,该模块通过所提出的尺度感知专家混合机制对特征进行动态聚合,得到特定特征 C s p e C_{spe} Cspe。
- 最后,将特定特征 C s p e C_{spe} Cspe与共享特征 C s h a C_{sha} Csha相加,得到最终的融合特征 C C C,其表达式为:
C = C s h a + C s p e (1) C = C_{sha} + C_{spe} \tag{1} C=Csha+Cspe(1)
2.2 冗余光谱去除模块(RSR)
对于 “粗” 处理部分,我们选择在频域对图像进行处理,这是因为频域具有固有的全局建模特性,并且仅通过逐点乘法运算即可过滤出相同的特征。由于频域具有固有的全局建模特性,且仅通过逐点乘法运算即可在全图像范围内过滤相同频段的特征,因此我们选择在频域对图像进行 “粗” 处理。然而,在空间域中难以处理目标特征的紧密耦合问题。因此,我们提出了冗余光谱去除(RSR)模块,以在频域中执行粗过滤。我们首先将每个输入图像转换到频域,然后预测一个动态滤波器,以自适应地衰减 RGB 和红外模态内的无关光谱。
具体来说,将成对的 RGB 图像 V ∈ R H × W × 3 V \in \mathbb{R}^{H \times W \times 3} V∈RH×W×3和红外图像 I ∈ R H × W × 1 I \in \mathbb{R}^{H \times W \times 1} I∈RH×W×1作为 RSR 模块的输入。对它们进行离散傅里叶变换(DFT(・)),得到频域图像 F I ( u , v ) F_{I}(u, v) FI(u,v)和 F V ( u , v ) F_{V}(u, v) FV(u,v):
F I ( u , v ) = DFT ( I ) , F V ( u , v ) = DFT ( V ) . \begin{aligned} F_{I}(u, v) &= \text{DFT}(I), \\ F_{V}(u, v) &= \text{DFT}(V). \end{aligned} FI(u,v)FV(u,v)=DFT(I),=DFT(V).
滤波器预测网络旨在基于原始图像的幅度信息 ∣ F I ( u , v ) ∣ |F_{I}(u, v)| ∣FI(u,v)∣和 ∣ F V ( u , v ) ∣ |F_{V}(u, v)| ∣FV(u,v)∣动态生成冗余光谱滤波器,如图3所示。对于每个模态的图像,我们对幅度图像执行简单的编码器操作以获得特征嵌入:
M l I = Encoder I ( ∣ F I ( u , v ) ∣ ) , M l V = Encoder V ( ∣ F V ( u , v ) ∣ ) , \begin{aligned} M_{l_{I}} &= \text{Encoder}_{I}\left(|F_{I}(u, v)|\right), \\ M_{l_{V}} &= \text{Encoder}_{V}\left(|F_{V}(u, v)|\right), \end{aligned} MlIMlV=EncoderI(∣FI(u,v)∣),=EncoderV(∣FV(u,v)∣),
嵌入向量 M l I M_{l_{I}} MlI、 M l V ∈ R m M_{l_{V}} \in \mathbb{R}^{m} MlV∈Rm的每个值表示 F I ( u , v ) F_{I}(u, v) FI(u,v)和 F V ( u , v ) F_{V}(u, v) FV(u,v)图像中不同块区域的重要性。为了在衰减无用光谱成分的同时充分保留有效成分,我们对 M l I M_{l_{I}} MlI和 M l V M_{l_{V}} M


1083

被折叠的 条评论
为什么被折叠?



