SAT:State-Aware Tracker for Real-Time Video Object Segmentation 阅读-CSDN博客

本文介绍了State-Aware Tracker (SAT)在实时视频对象分割中的应用，该方法结合了联合分割网络、状态评估器和反馈机制。状态评估器根据分割结果计算状态分数，通过反馈调整裁剪策略和全局特征表示，以应对目标的正常和非正常状态。实验表明，SAT在处理目标遮挡、消失和快速运动等挑战时表现出色。

State-Aware Tracker for Real-Time Video Object Segmentation

https://arxiv.org/abs/2003.00482
针对video object segmentation (VOS)任务的跟踪器State-Aware Tracker (SAT)

简图示意：
在这里插入图片描述
粉色的联合分割网络得到目标mask，蓝色的状态评估器根据分割结果评估状态得分，然后产生两个反馈：剪切策略切换和全局特征的动态更新。

SAT分为三部分：联合分割网络，状态评估器和反馈。联合分割这块把显著性编码器（橙色），相似度编码器（黄色）和全局特征（绿色）融合在一起，然后对融合后的特征进行解码，预测mask。

>这部分是利用孪生的互相关网络产生目标的位置响应，再利用该位置响应指导一次编解码过程，得到目标的mask；将互相关结果的位置响应映射到跟踪图像上。个人觉得由于互相关运算之后得到的是相似度响应图，关于图像的位置信息已经损失了，直接在响应图的基础上重建出mask或者分割信息会导致较大的误差，SiamMask就是直接在分割和回归任务后增加mask的分割任务。所以作者增加了另外的分支，称为显著性编码分支，融合响应图之后再做解码；或者可以解释为将关于目标的位置信息调制到编解码器上，这里采用了显式的调制过程。

状态评估器根据预测结果计算状态分数来当前状态。根据状态估计的结果形成反馈，一是切换裁剪策略，二是构造一个全局特征表示，起到特征增强的作用。

Segmentation

相似度编码部分结构的实现参照以Alexnet为backbone的SiamFC++，显著性编码部分使用修改的ResNet-50。
显著性编码这一部分利用编码特征、相似度响应、全局特征进行元素加法之后再进行解码，可能是想让特征更为鲁邦吧。在特征融合之后，通过双线性插值对高层特征进行上采样，和显著性编码器对应的低层特征连接起来补足图像的位置信息（FPN）。

Estimation

作者在这部分说明了一下状态评估的作用，首先是目标的状态可以划分为正常和非正常状态，正常就不用说了，目标被截断会导致mask分散，即聚集度低。而遮挡和消失会导致置信度低；这些都属于非正常状态。所以作者设计了两个分数项 $s_{cf}$ 和 $s_{cc}$ ，分别表征mask预测的置信度和聚集度：
$Scf=∑i,jPi,j⋅Mi,j∑i,jMi,j\mathcal{S}_{\mathcal{cf}}=\frac{\sum_{i,j}\mathcal{P}_{\mathcal{i},\mathcal{j}}\cdot\mathcal{M}_{\mathcal{i},\mathcal{j}}}{\sum_{i,j}\mathcal{M}_{\mathcal{i},\mathcal{j}}}$