C2DFNet: Criss-Cross Dynamic Filter Networkfor RGB-D Salient Object Detection笔记

原创

已于 2023-03-21 11:30:35 修改 · 847 阅读

标签

#目标检测 #计算机视觉 #深度学习

于 2023-03-21 11:29:26 首次发布

文章提出了一种新的RGB-D显著目标检测模型，通过动态卷积解耦，实现模态内和模态间的特征增强与融合。具体包括模态特定动态增强模块(MDEM)和场景感知动态融合模块(SDFM)，以适应RGB和深度数据的差异，提高不同场景下的检测准确性。

一、摘要

处理通道内和通道间特征的能力对于RGB-D显著目标检测的发展至关重要。由于广泛采用的常规卷积（其中在推断期间应用固定参数核），大多数现有方法还没有深入到RGB和深度数据之间的固有差异中。RGB和深度数据是独立处理的，然后交互地融合，为促进不同场景下模态内和模态间的交互作用，开发了一种新的见解和更好的模型。本文通过动态卷积解耦，提出一种交叉动态滤波网络。首先提出了一个特定于模型的动态增强模块（MDEM），该模块在全局上下文指导下动态增强模态内特征。其次，提出了场景感知动态融合模块（SDFM），实现了两种模态间的动态特征选择。模型实现了对显著对象的准确预测。

二、解决的问题

问题：

（1) RGB和深度数据具有不同的特征，RGB和深度数据之间的差异对基于不同模态的模态特定特征增强提出了挑战。所有具有增强特征的模态都可能有助于从不同角度为显着物体检测提供潜在机会。

(2) RGB和深度两种模态的充分融合是rgb-d SOD的基石，但图像和深度图的质量很容易受到各种因素以不同方式的影响其效果。

方法：

特定于模型的动态增强模块 (MDEM)：动态适应每个模态中的特定存在。MDEM生成专用滤波器，以动态滤波器结构处理RGB和深度的特征。滤波器是从RGB和深度的整体环境中生成的，它们指导MDEM实现模态特定的特征增强。

场景感知动态融合模块 (SDFM)：动态地制定了交叉模态融合的互补交互。模块自适应地调整动态滤波器的权重，以根据两种模态在不同场景中的贡献选择有益的交叉模态特征，从而赋予模型有针对性的场景感知。

将原始的动态局部滤波器解耦到空间特定域和通道特定域，以实现rgb-d显着性检测模型。

三、整体结构框架

网络的整体架构在左侧：基于两流编码器-解码器结构。两个编码器分别提供RGB和深度图像。基于解耦动态卷积。MDEM动态增强两个流上的模态内特征，以实现更好的跨模态融合，而SDFM融合MDEM增强的特征，以实现两个模态之间的动态特征选择。解耦动态卷积包含空间和通道动态卷积。

两流编码器-解码器网络：

两个编码器从两个源输入学习RGB和深度特征表示。通过两个编码网络中的卷积块 {Ei r}5 i = 1和 {Ei d}5 i = 1，获得具有不同分辨率的中间特征，从大到小分辨率分别记为f1，f2，f3，f4，f5。为将动态特征交互扩展到特定于模态的特征增强和跨模态特征融合，提出了基于解耦动态局部滤波器的两个动态模块: 模态特定动态增强模块 (MDEM) 和场景感知动态融合模块(SDFM)。最后，将交互后的特征馈送到解码器以恢复分辨率并预测显着性图。MDEM旨在通过整体信息指导来增强不同比例的模态特定特征，而SDFM则专注于通过滤波器级注意机制从rgb-d特征自适应地生成面向细节的动态滤波器，然后引导相应的RGB特征来灵活地确定目标区域。

动态空间卷积FSDC（上图右侧）

最低0.47元/天解锁文章