转载请注明作者和出处: http://blog.csdn.net/john_bh/
论文链接: SOLOv2: Dynamic, Faster and Stronger
作者及团队:阿德莱德大学 & 清华大学 & 字节跳动 AI Lab
会议及时间:NeurIPS 2020
code1:https://github.com/WXinlong/SOLO
文章目录
1.主要贡献
SOLOv2中作者旨在建立一个性能强大的简单,直接,快速的实例分割框架。
- 提出动态学习对象分割器的 mask head,这样使mask head 依赖于位置。具体来说,将掩码分支分解为mask kernel分支和mask feature 分支,分别学习卷积核和卷积特征。—
mask learning - 提出矩阵NMS(non maximum suppression)以显着减少由于掩码的NMS造成的推理时间开销。Matrix NMS一次性使用并行矩阵操作执行NMS,并产生了更好的结果。—
mask NMS - SOLOv2 可以用于目标检测和全景分割任务,也可以作为势力级识别任务的baseline,代码地址:https://git.io/AdelaiDet 。
- Dynamic Convolutions:
- 在传统的卷积层中,学习的卷积核保持固定并独立于输入;
- 空间变换网络(Spatial Transform Networks)预测了全局参数变换以扭曲特征图,从而使网络能够自适应地对以输入为条件的特征图进行变换;
- 动态滤波器(Dynamic filter)来主动预测卷积滤波器的参数。 它以样本特定的方式将动态生成的滤镜应用于图像;
- 可变形卷积网络(Deformable Convolutional Networks)通过预测每个图像位置的偏移量来动态学习采样位置。
- NonMaximum Suppression
- NMS 根据阈值很硬去除重复的预测;
- Soft-NMS 根据邻居与较高得分的预测的重叠来降低其置信度得分。与传统的NMS相比,检测精度有所提高,但由于顺序操作,推理速度较慢;
- 自适应NMS 将动态抑制阈值应用于每个实例,该阈值是针对人群中的行人检测量身定制的;
- Fast NMS可以并行地确定要保留的预测还是丢弃的预测。请注意,它会以性能下降为代价加快速度;
Matrix NMS解决了以下问题:同时进行硬删除和顺序操作。结果,在简单的PyTorch实施中,Matrix NMS能够在不到1 ms的时间内处理500个掩模,并且比Fast NMS的效率高出0.4%。
2. SOLOv1

SOLOv1输入图像被划分为 S × S S\times S S×S网格。如果对象的中心位于网格单元格中,则该网格单元格负责预测语义类别以及分配每个像素的位置类别。其中包含两个分支:类别分支和掩码分支。
- 类别分支:预测语义类别。对于每个网格,SOLO都会预测 C C C 维输出,用来表示语义类的概率。其中, C C C 是类别的数量。这些概率取决于网格单元,如果将输入图像划分为 S × S S×S S×S 网格,则输出空间将为 S × S × C S×S×C S×S×C。
- 掩码分支:对对象实例进行分割。给定输入图像 I I I ,如果将其划分为 S × S S\times S S×S 网格,则总共最多会有 S 2 S^2 S2 个预测掩码。具体来说,实例掩码输出将具有 H I × W I × S 2 H_I \times W_I \times S^2 HI×WI×S2 维。第 k t h k^{th} kth 个通道将负责在网格 ( i , j ) (i,j) (i,j) 处分割实例,其中 k = i ⋅ S + j k=i\cdot S+j k=i⋅S+j ( i i i 和 j j j 从零开始)。 这样,在语义类别和class-agnostic 掩码之间建立了一对一的对应关系,如图2所示。

掩码分支的最后一层是 1 × 1 1\times 1 1×1卷积层,以特征 F ∈ R H × W × E F\in R^{H\times W\times E} F∈RH×W×E 为输入,输出 S 2 S^2 S2通道,即

SOLOv2是一种快速、简单、高效的实例分割框架,由阿德莱德大学、清华大学和字节跳动AILab联合研发。论文在NeurIPS2020发表。主要贡献包括动态实例分割和矩阵NMS,显著提高了实例分割的速度和精度。

1万+

被折叠的 条评论
为什么被折叠?



