极简笔记 Pyramid Attention Network for Semantic Segmentation

最新推荐文章于 2024-08-16 08:23:50 发布

原创

最新推荐文章于 2024-08-16 08:23:50 发布 · 9.9k 阅读

本文介绍了Pyramid Attention Network (PAN)的创新，它使用Feature Pyramid Attention (FPA)和Global Attention Upsample (GAU)模块引入注意力机制，以改进语义分割任务。PAN避免了现有模型的grid artifact问题，保持像素位置信息。FPA包含一个预测注意力mask的金字塔结构分支和一个全局池化分支。GAU在解码阶段应用注意力机制，高分辨率特征图预测通道掩模并作用于低分辨率捷径。实验结果显示了FPA和GAU的有效性，并在多个基准上达到了SOTA表现。

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

极简笔记 Pyramid Attention Network for Semantic Segmentation

本文核心提出PAN，提出Feature Pyramid Attention module（FPA）和Global Attention Upsample module（GAU），引入注意力机制用于语义分割。
这里写图片描述

文章认为现有分割ASPP模型会导致grid artifact；以及pyramid pooling module会很大程度丢失像素位置信息。因此考虑不使用atrous形式，同时通过用金字塔结构学习注意力mask而不是直接对feature map进行学习，从而保持像素级别的位置信息。FPA结构如图，一个分支用pyramid结构预测attention mask，另外再加一个global pooling branch。值得吐槽的是配图画的真丑，我真的没有从配图中看出来下采样使用pooling还是用stride=2的形式实现的，以及每个尺度上的卷积是做两次nxn还是一次nxn。还有global pooling branch后面原文写着和之前的feature进行concatenate，在图里又变成了+，这种说话说一半，前后不一致的现象，极度影响阅读体验！要不是看在sota的份上我就不看了！
这里写图片描述

GAU是用在decode时候的单元，同样引入注意力机制，基本思路也就是high resolution feature map预测一个channel mask然后乘在low resolution shortcut上，具体实现如图。

低功耗蓝牙项目，需要一块懂省电的板

思澈 SF32LB52 芯片，BLE 协议栈深度优化，上手即开发

点击查看

最低0.47元/天解锁文章