I Can Find You! Boundary-Guided Separated Attention Network for Camouflaged Object Detection

最新推荐文章于 2025-04-17 09:30:00 发布

原创最新推荐文章于 2025-04-17 09:30:00 发布 · 1.2k 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#目标检测 #人工智能 #计算机视觉

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

在这里插入图片描述

Abstract

提出：边界引导分离注意网络BSA-Net

双分支：反向注意力分支，消除伪装对象的内部，关注背景；正向注意力分支，关注前景
边界引导模块

1. Introduction

目前COD面临的问题：伪装对象与背景边界模糊
BSA-Net是一种由粗到精的学习模型，利用三个模块：

残差多尺度特征提取器RMFE：捕获上下文信息
分离注意力机制SEA：处理敏感-不变性困境，建立正常注意力分支与反向注意力分支，关注前景与背景，相结合工作
边界引导器BG：构建（突出）伪装对象的边界，增强了SEA边缘检测的能力

3. Methodology

在这里插入图片描述

3.1 Network Architecture

输入： $I∈RW×H×3I\in R^{W\times H\times 3}$
获得多尺度特征 $Fi,i∈{1,2,3,4,5}F_i,i\in \{1,2,3,4,5\}$ ：使用Res2Net作为骨干网络
将 $F_2,F_3,F_4,F_5$ 输入残差多尺度特征提取器中，获得不同感受野的特征
利用正向注意力流与反向注意力流的分离注意力模块对前景与背景进行聚焦。粗略图 $Ci,i∈{1,2,3,4}C_i,i\in \{1,2,3,4\}$ 由反向注意力流得到（由Ground Truth监督）
利用边缘检测网络获取边界图BM，应用于SEA模块中
利用shuffle attention处理信息通道
得到第一轮预测的4个精细化地图，标记为 $Ri,i∈{1,2,3,4}R_i,i\in \{1,2,3,4\}$ ，并选择 $R_1$ 作为推理阶段的最终输出

3.2 Residual Multi-scale Feature Extractor

前提：由于ResNet进行串行卷积运算，无法提取丰富的上下文信息；使用 $3×33\times 3$ 的卷积核难以在一个阶段获取多尺度特征，不利于图像的理解和分割
启发：Inception模块和Res2Net
提出：残差多尺度特征提取器RMFE

细节：
RMFE采用并行的卷积（卷积核 $3×33\times 3$ ），利用残差块逐次放大感受野，其公式定义为：
$Boutki={Convr(Fi),k=1Convr(Fi⨁Boutk−1),k=2,3,4Bout_k^i=\begin{cases} Conv_r(F_i),k=1 \\ Conv_r(F_i\bigoplus Bout_{k-1}),k=2,3,4 \end{cases}$
$RMFEi=Conv(Fi)⨁Conv(Catk=14(Boutki))RMFE_i=Conv(F_i)\bigoplus Conv(Cat^4_{k=1}(Bout^i_k))$

3.3 Separated Attention

引入：Separated Attention，其中包含MS-CAM

细节：
该模块中包含两个流。第一个流，擦除伪装对象的内部细节以聚焦背景；第二个流，恢复伪装对象中的内部信息以聚焦前景。通过背景与前景信息的协同作用，突出其分界线，即伪装对象的边界。
第 $i$ 层的前景注意力图是第 $i + 1$ 层粗略图 $C_{i+1}$ 上采样的结果，记为 $Wfai=σ(Ci+1)W_{fai}=\sigma(C_{i+1})$ ，其中 $σ\sigma$ 是 $s i g m o i d$ 函数。
第 $i$ 层的背景注意力图是 $1$ 减去前景注意力图，记为 $Wbai=1−σ(Ci+1)W_{bai}=1-\sigma(C_{i+1})$ 。
注意，在元素乘法前，将所有注意力图的通道扩张为 $64$ ，其公式定义为：
$Bai=Outi=Convs(RMFEi⨂expand(Wbai))Ba_i=Out_i=Conv_s(RMFE_i\bigotimes expand(W_{bai}))$
$Fai=Convs(RMFEi⨂expand(Wfai))Fa_i=Conv_s(RMFE_i\bigotimes expand(W_{fai}))$
其中， $Conv_s$ 是 $1×11\times 1$ 的卷积， $Out_i$ 是第 $i$ 层的粗略输出图 $C_i$ ，由Ground Truth监督。
为挖掘每个流对SEA的贡献，采用多尺度通道注意力模块MS-CAM，一个双分支块来获得全局和局部尺度的特征映射的权重，其权重矩阵 $W$ 记为 $W(X)=G(σ(G(X)))+G(σ(L(X)))W(X)=G(\sigma(G(X)))+G(\sigma(L(X)))$ 。 $G (X)$ 采用全局平均池化层挖掘全局信息， $L (X)$ 采用逐点卷积挖掘局部信息。
采用 $Ba_i$ 和 $Fa_i$ 作为MS-CAM的输入。在每个注意力模块之后，增加一个边界引导模块BG，增强模型对边界的理解能力，突出边界。此处忽略BG模块的实现方式，SEA模块的公式定义为：
$SEAFi=BGi(W(Bai+Fai)⨂Bai,Bmap)SEAF_i=BG_i(W(Ba_i+Fa_i)\bigotimes Ba_i,Bmap)$
$SEABi=BGi(1−W(Bai+Fai)⨂fai,Bmap)SEAB_i=BG_i(1-W(Ba_i+Fa_i)\bigotimes fa_i,Bmap)$
$SEAi=SEAFi⨁SEABi,i=2,3,4SEA_i=SEAF_i\bigoplus SEAB_i,i=2,3,4$
其中， $SEAF_i$ 和 $SEAB_i$ 前景流和背景流的输出结果。

3.4 Boundary Guider

前提：预测对象的边界是复杂的，造成这种情况的主要原因有两个：其一是边界周围的像素分布异常，其二是SOD是高分辨率任务，需要像素级分类。因为使用很多卷积层和池化层提取特征，所以需要很多上采样和插值操作恢复分辨率，这在一定程度上造成空间信息的丢失。此问题在COD中更加明显，因为伪装对象被隐藏合并在背景中，使得边界更加模糊。
提出：尝试将边界信息整合到特征空间中，以增强模型对边界的敏感性

边界检测网络将来自骨干网络的的四层特征连接起来，并利用卷积得到由Ground Truth边界图监督的边界图。
边缘预测图 $BM$ 和SEA模块生成的特征图 $A SM$ 一同传递给条件批归一化模块BG。在一般的批归一化中，仿射参数 $γ\gamma$ 和 $β\beta$ 在没有先验知识的情况下无法学习到足够的信息，为处理这个问题，采用边界图学习这些仿射参数。作者将边界预测作为条件，该模块将空间信息嵌入到特征映射中，使得原始特征映射能够更好地学习到边界特征，其公式定义为：
$BGMi=CB(ASMi)⨂γ(BM)⨁β(BM)BGM_i=CB(ASM_i)\bigotimes \gamma (BM) \bigoplus \beta(BM)$
其中， $CB$ 是 $3×33\times 3$ 的卷积和批处理归一化。

3.5 Loss Function

二值交叉熵被广泛应用于SOD和COD任务中，但二值交叉熵有明显的缺点，即当前景像素的数量远远少于背景像素的数量时模型会严重偏向背景，导致性能不佳。为解决此缺点，本文为每个像素分配一个权重因子，记为 $ω=σ∣Pn−Gn∣\omega=\sigma|P_n-G_n|$ 。带权重的二值交叉熵BCE定义为：
$LWbce=−∑n=1Nω[Gnln(Pn)−(1−Gn)ln(1−Pn)]\mathcal{L}_{W_{bce}}=-\sum_{n=1}^N \omega[G_nln(P_n)-(1-G_n)ln(1-P_n)]$
其中， $P_n$ 和 $G_n$ 是预测图和Ground Truth的像素值。
除此之外，作者还使用IOU损失，综合损失公式定义为：
$Lt=LWbce+LIOU\mathcal{L}_t=\mathcal{L}_{W_{bce}}+\mathcal{L}_{IOU}$
模型包含9个监督输出，包括4张粗略图 $C_1,C_2,C_3,C_4）$ 、4张精修图 $R_1,R_2,R_3,R_4）$ 和1张边界图 $B$ 。最终损失函数表示为：
$L=∑i=14[Lt(Ci,G)+Lt(Ri,G)]+Lbce(B,BG)\mathcal{L}=\sum_{i=1}^4[\mathcal{L}_t(C_i,G)+\mathcal{L}_t(R_i,G)]+\mathcal{L}_{bce}(B,BG)$
其中， $BG$ 是边界Ground Truth标签。