DeepLabV3论文解读(空洞卷积/膨胀卷积 理解)
最近在做基础网络研究,设计的网络结构除了在分类数据集上测试,还需要在分割和检测网络上测试效果,故选择了DeepLabV3作为对比平台。本想直接替换backbone查看结果,但不如借此机会把DeepLabV3好好研究清楚,顺带把分割领域的经典论文研究一遍,于是有了这篇博客~
(FCN、SegNet、U-Net、CRF)
DeepLabV3结构解读
相关的四种获取上下文信息的分割方法:
- Image pyramid
图像金字塔的用法是将一个共享权重的相同模型应用于多尺度的输入,其中大尺度的输入提供了小目标的细节,小尺度的输入图像被编码成整体的上下文信息。这种方法的主要缺点是因为GPU的内存限制(相当于针对每个尺度的输入都有同一个模型在并行训练),无法在较大/较深的网络上应用,因此通常在推理(Inference)阶段使用。 - Encoder-decoder
编码器-解码器结构包含两个部分:编码器部分讲特征图的空间尺寸逐渐减小,从而在更深的特征图中捕获更长范围的信息,而解码器部分则负责恢复特征图的空间尺寸和对象的细节。比如SegNet和U-Net结构。 - Context module
包含级联布局的其他模块来对大范围的上下文进行编码,比如将DenseCRF合并到CNN中。也有文献建议同时训练CNN和CRF,或者在CNN的belief map上使用额外卷积来获取上下文信息。 - Spatial pyramid pooling
空间金字塔池化(SPP)最开始由何凯明提出,是一种在池化层融合多尺度信息的方法,DeepLabV2提出了空洞空间金字塔池化ASPP。最近PSP Net在几个网格尺度上执行空间池化,还有其他基于LSTM的方法。
在DeepLabV3的主要工作是探索空洞卷积在Context module和Spatial pyramid pooling的应用,复制了ResNet的最后一个block并且以级联的

本文深入解析DeepLabV3论文,探讨空洞卷积在图像分割中的应用,包括其如何提升特征响应密度,以及空洞空间金字塔池化(ASPP)如何捕捉多尺度信息。
&spm=1001.2101.3001.5002&articleId=102841027&d=1&t=3&u=1ccdf7b22c9b4f9f8b611949608fd330)
7730

被折叠的 条评论
为什么被折叠?



