I Can Find You! Boundary-Guided Separated Attention Network for Camouflaged Object Detection

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

在这里插入图片描述

Abstract

提出:边界引导分离注意网络BSA-Net

  1. 双分支:反向注意力分支,消除伪装对象的内部,关注背景;正向注意力分支,关注前景
  2. 边界引导模块

1. Introduction

目前COD面临的问题:伪装对象与背景边界模糊
BSA-Net是一种由粗到精的学习模型,利用三个模块:

  1. 残差多尺度特征提取器RMFE:捕获上下文信息
  2. 分离注意力机制SEA:处理敏感-不变性困境,建立正常注意力分支与反向注意力分支,关注前景与背景,相结合工作
  3. 边界引导器BG:构建(突出)伪装对象的边界,增强了SEA边缘检测的能力

3. Methodology

在这里插入图片描述

3.1 Network Architecture

  • 输入:I∈RW×H×3I\in R^{W\times H\times 3}IRW×H×3
  • 获得多尺度特征Fi,i∈{1,2,3,4,5}F_i,i\in \{1,2,3,4,5\}Fi,i{1,2,3,4,5}:使用Res2Net作为骨干网络
  • F2,F3,F4,F5F_2,F_3,F_4,F_5F2,F3,F4,F5输入残差多尺度特征提取器中,获得不同感受野的特征
  • 利用正向注意力流与反向注意力流的分离注意力模块对前景与背景进行聚焦。粗略图Ci,i∈{1,2,3,4}C_i,i\in \{1,2,3,4\}Ci,i{1,2,3,4}由反向注意力流得到(由Ground Truth监督)
  • 利用边缘检测网络获取边界图BM,应用于SEA模块中
  • 利用shuffle attention处理信息通道
  • 得到第一轮预测的4个精细化地图,标记为Ri,i∈{1,2,3,4}R_i,i\in \{1,2,3,4\}Ri,i{1,2,3,4},并选择R1R_1R1作为推理阶段的最终输出

3.2 Residual Multi-scale Feature Extractor

前提:由于ResNet进行串行卷积运算,无法提取丰富的上下文信息;使用3×33\times 33×3的卷积核难以在一个阶段获取多尺度特征,不利于图像的理解和分割
启发Inception模块和Res2Net
提出:残差多尺度特征提取器RMFE

细节
RMFE采用并行的卷积(卷积核3×33\times 33×3),利用残差块逐次放大感受野,其公式定义为:
Boutki={Convr(Fi),k=1Convr(Fi⨁Boutk−1),k=2,3,4Bout_k^i=\begin{cases} Conv_r(F_i),k=1 \\ Conv_r(F_i\bigoplus Bout_{k-1}),k=2,3,4 \end{cases}Boutki={Convr(Fi),k=1Convr(FiBoutk1),k=2,3,4
RMFEi=Conv(Fi)⨁Conv(Catk=14(Boutki))RMFE_i=Conv(F_i)\bigoplus Conv(Cat^4_{k=1}(Bout^i_k))RMFEi=Conv(Fi)Conv(Catk=14(Boutki))

3.3 Separated Attention

引入Separated Attention,其中包含MS-CAM

细节
该模块中包含两个流。第一个流,擦除伪装对象的内部细节以聚焦背景;第二个流,恢复伪装对象中的内部信息以聚焦前景。通过背景与前景信息的协同作用,突出其分界线,即伪装对象的边界。
iii层的前景注意力图是第i+1i+1i+1层粗略图Ci+1C_{i+1}Ci+1上采样的结果,记为Wfai=σ(Ci+1)W_{fai}=\sigma(C_{i+1})Wfai=σ(Ci+1),其中σ\sigmaσsigmoidsigmoidsigmoid函数。
iii层的背景注意力图是111减去前景注意力图,记为Wbai=1−σ(Ci+1)W_{bai}=1-\sigma(C_{i+1})Wbai=1σ(Ci+1)
注意,在元素乘法前,将所有注意力图的通道扩张为646464,其公式定义为:
Bai=Outi=Convs(RMFEi⨂expand(Wbai))Ba_i=Out_i=Conv_s(RMFE_i\bigotimes expand(W_{bai}))Bai=Outi=Convs(RMFEiexpand(Wbai))
Fai=Convs(RMFEi⨂expand(Wfai))Fa_i=Conv_s(RMFE_i\bigotimes expand(W_{fai}))Fai=Convs(RMFEiexpand(Wfai))
其中,ConvsConv_sConvs1×11\times 11×1的卷积,OutiOut_iOuti是第iii层的粗略输出图CiC_iCi,由Ground Truth监督。
为挖掘每个流对SEA的贡献,采用多尺度通道注意力模块MS-CAM,一个双分支块来获得全局和局部尺度的特征映射的权重,其权重矩阵WWW记为W(X)=G(σ(G(X)))+G(σ(L(X)))W(X)=G(\sigma(G(X)))+G(\sigma(L(X)))W(X)=G(σ(G(X)))+G(σ(L(X)))G(X)G(X)G(X)采用全局平均池化层挖掘全局信息,L(X)L(X)L(X)采用逐点卷积挖掘局部信息。
采用BaiBa_iBaiFaiFa_iFai作为MS-CAM的输入。在每个注意力模块之后,增加一个边界引导模块BG,增强模型对边界的理解能力,突出边界。此处忽略BG模块的实现方式,SEA模块的公式定义为:
SEAFi=BGi(W(Bai+Fai)⨂Bai,Bmap)SEAF_i=BG_i(W(Ba_i+Fa_i)\bigotimes Ba_i,Bmap)SEAFi=BGi(W(Bai+Fai)Bai,Bmap)
SEABi=BGi(1−W(Bai+Fai)⨂fai,Bmap)SEAB_i=BG_i(1-W(Ba_i+Fa_i)\bigotimes fa_i,Bmap)SEABi=BGi(1W(Bai+Fai)fai,Bmap)
SEAi=SEAFi⨁SEABi,i=2,3,4SEA_i=SEAF_i\bigoplus SEAB_i,i=2,3,4SEAi=SEAFiSEABi,i=2,3,4
其中,SEAFiSEAF_iSEAFiSEABiSEAB_iSEABi前景流和背景流的输出结果。

3.4 Boundary Guider

前提:预测对象的边界是复杂的,造成这种情况的主要原因有两个:其一是边界周围的像素分布异常,其二是SOD是高分辨率任务,需要像素级分类。因为使用很多卷积层和池化层提取特征,所以需要很多上采样和插值操作恢复分辨率,这在一定程度上造成空间信息的丢失。此问题在COD中更加明显,因为伪装对象被隐藏合并在背景中,使得边界更加模糊。
提出:尝试将边界信息整合到特征空间中,以增强模型对边界的敏感性

边界检测网络将来自骨干网络的的四层特征连接起来,并利用卷积得到由Ground Truth边界图监督的边界图。
边缘预测图BMBMBMSEA模块生成的特征图ASMASMASM一同传递给条件批归一化模块BG。在一般的批归一化中,仿射参数γ\gammaγβ\betaβ在没有先验知识的情况下无法学习到足够的信息,为处理这个问题,采用边界图学习这些仿射参数。作者将边界预测作为条件,该模块将空间信息嵌入到特征映射中,使得原始特征映射能够更好地学习到边界特征,其公式定义为:
BGMi=CB(ASMi)⨂γ(BM)⨁β(BM)BGM_i=CB(ASM_i)\bigotimes \gamma (BM) \bigoplus \beta(BM)BGMi=CB(ASMi)γ(BM)β(BM)
其中,CBCBCB3×33\times 33×3的卷积和批处理归一化。

3.5 Loss Function

二值交叉熵被广泛应用于SODCOD任务中,但二值交叉熵有明显的缺点,即当前景像素的数量远远少于背景像素的数量时模型会严重偏向背景,导致性能不佳。为解决此缺点,本文为每个像素分配一个权重因子,记为ω=σ∣Pn−Gn∣\omega=\sigma|P_n-G_n|ω=σPnGn。带权重的二值交叉熵BCE定义为:
LWbce=−∑n=1Nω[Gnln(Pn)−(1−Gn)ln(1−Pn)]\mathcal{L}_{W_{bce}}=-\sum_{n=1}^N \omega[G_nln(P_n)-(1-G_n)ln(1-P_n)]LWbce=n=1Nω[Gnln(Pn)(1Gn)ln(1Pn)]
其中,PnP_nPnGnG_nGn是预测图和Ground Truth的像素值。
除此之外,作者还使用IOU损失,综合损失公式定义为:
Lt=LWbce+LIOU\mathcal{L}_t=\mathcal{L}_{W_{bce}}+\mathcal{L}_{IOU}Lt=LWbce+LIOU
模型包含9个监督输出,包括4张粗略图(C1,C2,C3,C4)(C_1,C_2,C_3,C_4)C1,C2,C3,C4、4张精修图(R1,R2,R3,R4)(R_1,R_2,R_3,R_4)R1,R2,R3,R4和1张边界图BBB。最终损失函数表示为:
L=∑i=14[Lt(Ci,G)+Lt(Ri,G)]+Lbce(B,BG)\mathcal{L}=\sum_{i=1}^4[\mathcal{L}_t(C_i,G)+\mathcal{L}_t(R_i,G)]+\mathcal{L}_{bce}(B,BG)L=i=14[Lt(Ci,G)+Lt(Ri,G)]+Lbce(B,BG)
其中,BGBGBG是边界Ground Truth标签。

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值