SAT:State-Aware Tracker for Real-Time Video Object Segmentation 阅读

本文介绍了State-Aware Tracker (SAT)在实时视频对象分割中的应用,该方法结合了联合分割网络、状态评估器和反馈机制。状态评估器根据分割结果计算状态分数,通过反馈调整裁剪策略和全局特征表示,以应对目标的正常和非正常状态。实验表明,SAT在处理目标遮挡、消失和快速运动等挑战时表现出色。

State-Aware Tracker for Real-Time Video Object Segmentation

https://arxiv.org/abs/2003.00482
针对video object segmentation (VOS)任务的跟踪器State-Aware Tracker (SAT)

简图示意:
在这里插入图片描述
粉色的联合分割网络得到目标mask,蓝色的状态评估器根据分割结果评估状态得分,然后产生两个反馈:剪切策略切换和全局特征的动态更新。
在这里插入图片描述
SAT分为三部分:联合分割网络,状态评估器和反馈。联合分割这块把显著性编码器(橙色),相似度编码器(黄色)和全局特征(绿色)融合在一起,然后对融合后的特征进行解码,预测mask。

>这部分是利用孪生的互相关网络产生目标的位置响应,再利用该位置响应指导一次编解码过程,得到目标的mask;将互相关结果的位置响应映射到跟踪图像上。个人觉得由于互相关运算之后得到的是相似度响应图,关于图像的位置信息已经损失了,直接在响应图的基础上重建出mask或者分割信息会导致较大的误差,SiamMask就是直接在分割和回归任务后增加mask的分割任务。所以作者增加了另外的分支,称为显著性编码分支,融合响应图之后再做解码;或者可以解释为将关于目标的位置信息调制到编解码器上,这里采用了显式的调制过程。

状态评估器根据预测结果计算状态分数来当前状态。根据状态估计的结果形成反馈,一是切换裁剪策略,二是构造一个全局特征表示,起到特征增强的作用。

Segmentation

相似度编码部分结构的实现参照以Alexnet为backbone的SiamFC++,显著性编码部分使用修改的ResNet-50。
显著性编码这一部分利用编码特征、相似度响应、全局特征进行元素加法之后再进行解码,可能是想让特征更为鲁邦吧。在特征融合之后,通过双线性插值对高层特征进行上采样,和显著性编码器对应的低层特征连接起来补足图像的位置信息(FPN)。

Estimation

作者在这部分说明了一下状态评估的作用,首先是目标的状态可以划分为正常和非正常状态,正常就不用说了,目标被截断会导致mask分散,即聚集度低。而遮挡和消失会导致置信度低;这些都属于非正常状态。所以作者设计了两个分数项scfs_{cf}scfsccs_{cc}scc,分别表征mask预测的置信度和聚集度:
Scf=∑i,jPi,j⋅Mi,j∑i,jMi,j\mathcal{S}_{\mathcal{cf}}=\frac{\sum_{i,j}\mathcal{P}_{\mathcal{i},\mathcal{j}}\cdot\mathcal{M}_{\mathcal{i},\mathcal{j}}}{\sum_{i,j}\mathcal{M}_{\mathcal{i},\mathcal{j}}}Scf=i,jMi,j

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值