极简笔记 Pyramid Attention Network for Semantic Segmentation
本文核心提出PAN,提出Feature Pyramid Attention module(FPA)和Global Attention Upsample module(GAU),引入注意力机制用于语义分割。

文章认为现有分割ASPP模型会导致grid artifact;以及pyramid pooling module会很大程度丢失像素位置信息。因此考虑不使用atrous形式,同时通过用金字塔结构学习注意力mask而不是直接对feature map进行学习,从而保持像素级别的位置信息。FPA结构如图,一个分支用pyramid结构预测attention mask,另外再加一个global pooling branch。值得吐槽的是配图画的真丑,我真的没有从配图中看出来下采样使用pooling还是用stride=2的形式实现的,以及每个尺度上的卷积是做两次nxn还是一次nxn。还有global pooling branch后面原文写着和之前的feature进行concatenate,在图里又变成了+,这种说话说一半,前后不一致的现象,极度影响阅读体验!要不是看在sota的份上我就不看了!

GAU是用在decode时候的单元,同样引入注意力机制,基本思路也就是high resolution feature map预测一个channel mask然后乘在low resolution shortcut上,具体实现如图。

本文介绍了Pyramid Attention Network (PAN)的创新,它使用Feature Pyramid Attention (FPA)和Global Attention Upsample (GAU)模块引入注意力机制,以改进语义分割任务。PAN避免了现有模型的grid artifact问题,保持像素位置信息。FPA包含一个预测注意力mask的金字塔结构分支和一个全局池化分支。GAU在解码阶段应用注意力机制,高分辨率特征图预测通道掩模并作用于低分辨率捷径。实验结果显示了FPA和GAU的有效性,并在多个基准上达到了SOTA表现。

3063

被折叠的 条评论
为什么被折叠?



