论文阅读：Enconder-Decoder with Atrous Separabel Convolution for Semantic Image Segmentation（deeplabv3+）

最新推荐文章于 2025-04-11 15:49:39 发布

原创

最新推荐文章于 2025-04-11 15:49:39 发布 · 1.1k 阅读

标签

#网络 #计算机视觉 #python

本文介绍了一种基于深度可分离卷积的Enconder-Decoder结构，即DeepLabv3+，它结合了空间金字塔池和编码解码器的优势。研究者通过添加解码器模块强化边界细节，尤其是Xception模型的改进提升了速度和精度。实验结果显示，模型在PASCAL VOC和Cityscapes上表现出色，达到89.0%和82.1%的性能，且开源实现了模型。关键词包括语义分割、空间金字塔池、编码解码器和深度可分离卷积。

语义分割系列论文-Enconder-Decoder with Atrous Separabel Convolution for Semantic Image Segmentation（deeplabv3+）

本人对语义分割的部分论文使用有道进行翻译，其中有错误的地方望大家谅解，只作为个人学习的笔记。

文章目录

语义分割系列论文-Enconder-Decoder with Atrous Separabel Convolution for Semantic Image Segmentation（deeplabv3+）
摘要
1介绍
2相关工作
3方法
- 3.1采用Atrous卷积的编码器-解码器
- 3.2修改Xception模型
4实验结果

摘要

深度神经网络采用空间金字塔池化模块和编解码器结构进行语义分割。前者通过多速率、多有效视场的过滤或池化操作，能够编码多尺度背景信息;后者通过逐步恢复空间信息，能够捕获更清晰的物体边界。在本研究中，我们建议结合这两种方法的优点。具体来说，我们提出的模型DeepLabv3+扩展了DeepLabv3，通过添加一个简单但有效的解码器模块来细化分割结果，特别是沿着对象边界。我们进一步探索了Xception模型，并将深度可分离卷积应用于Atrous空间金字塔池和解码器模块，从而获得更快、更强的编码器-解码器网络。我们在PASCAL voC 2012和 Cityscapes 数据集上验证了该模型的有效性，在没有任何后处理的情况下，测试集的性能分别达到了89.0%和82.1%。我们的论文附带了Tensorflow中提出的模型的一个公开的参考实现，网址是:github.comltensorflow/models/tree/master/res earch/deeplab 。

**关键词**：语义图像分割，空间金字塔池，编解码器，深度可分离卷积。

1介绍

        语义分割是计算机视觉的基本课题之一，其目的是为图像中的每个像素分配语义标签。基于全卷积神经网络的深度卷积神经网络在基准任务上比依赖手工特征的系统有显著的改进。在这项工作中,我们考虑两种类型的神经网络,使用空间金字塔池模块或encoder-decoder 结构语义分割。前一个捕捉丰富的上下文信息,通过集中特性在不同的决议,而后者是能够获得锋利的物体边界。
       为了在多个尺度上捕获上下文信息，DeepLabv3]应用了多个不同速率的并行atrous卷积(称为atrous Spatial Pyramid Pooling, or ASPP)，而PSPNet在不同的网格尺度上执行池化操作。尽管在最后一个特征图中编码了丰富的语义信息，但由于网络主干中跨操作的池化或卷积，与对象边界相关的详细信息丢失了。通过应用atrous卷积来提取更密集的特征图，可以缓解这一问题。然而，考虑到目前最先进的神经网络设计和有限的GPU内存，提取比输入分辨率小8倍甚至4倍的输出特征图在计算上是不可能的。以 ResNet-101为例，在应用atrous卷积提取比输入分辨率小16倍的输出特征时，最后3个残差块(9层)内的特征需要进行扩展。更糟糕的是，如果需要的输出特性比输入小8倍，26个剩余块(78层)将受到影响。
       因此，如果对这种类型的模型提取更密集的输出特征，则需要大量的计算。另一方面，编码器-解码器模型有助于在编码器路径中更快地计算(因为没有特征被扩展)，并在解码器路径中逐渐恢复尖锐的对象边界。我们尝试结合这两种方法的优点，提出通过加入多尺度上下文信息来丰富编码器模块在编码器-解码器网络。

图1所示。我们改进了DeepLabv3，它采用了空间金字塔池化模块(a)，采用了编码器-解码器结构(b)。所提出的模型 DeepLabv3+包含了来自编码器模块的丰富语义信息，而详细的对象边界由简单而有效的解码器模块恢复。编码器模块允许我们通过应用atrous卷积提取任意分辨率的特征。

图1 改进了DeepLabv3，它采用了空间金字塔池化模块(a)，采用了编码器-解码器结构(b)。所提出的模型 DeepLabv3+包含了来自编码器模块的丰富语义信息，而详细的对象边界由简单而有效的解码器模块恢复。编码器模块允许我们通过应用atrous卷积提取任意分辨率的特征。

       特别是，我们提出的模型，称为DeepLabv3+，通过添加一个简单而有效的解码器模块来恢复对象边界来扩展 DeepLabv3，如图1所示。丰富的语义信息被编码在DeepLabv3的输出中，通过atrous卷积可以根据计算资源的预算控制编码器特性的密度。此外，解码器模块允许详细的对象边界恢复。
       受最近深度可分离卷积成功的启发，我们也探索了这种操作，并通过适应Xception模型来完成任务，显示了在速度和准确性方面的改进。并将atrous可分离卷积应用于ASPP和解码器模块。最后，我们在PASCAL VOC 2012和 Cityscapes 数据上验证了所提模型的有效性，在没有任何后处理的情况下，测试集的性能达到了89.0%和82.1%，开创了一个新的发展阶段。
       总之，我们的贡献是:
       （1）提出了一种新的编码器-解码器结构，采用 DeepLabv3作为一个强大的编码器模块和一个简单而有效的解码器模块。
       （2）在该结构中，可以通过atrous卷积任意控制提取的编码器特征的分辨率，以权衡精度和运行时，这在现有编码器-解码器模型中是不可能的。
       （3）将Xception模型用于分割任务，并将深度可分离卷积应用于ASPP模块和解码器模块，从而实现更快更强的编解码器网络。
       （4）提出的模型在PASCAL VOC 2012和Cityscapes上获得了最新的性能。还提供了设计选择和模型变体的详细分析。