0.摘要
深度卷积神经网络(CNNs)是最先进的语义图像分割系统的基础。最近的研究表明,将CNNs与全连接的条件随机场(CRFs)结合可以显著提高目标定位的准确性,然而密集CRF推理计算代价很高。我们提出用域变换(DT)替代全连接的CRF,域变换是一种现代的边缘保持滤波方法,其平滑程度由参考边缘图控制。域变换滤波比密集CRF推理快几倍,并且我们证明它产生可比较的语义分割结果,准确地捕捉物体边界。重要的是,我们的公式允许从中间CNN特征中学习参考边缘图,而不是像标准的DT滤波那样使用图像梯度幅度。这样可以在端到端可训练的系统中产生任务特定的边缘,优化目标语义分割质量。
1.引言
深度卷积神经网络(CNNs)在语义图像分割中非常有效,即为图像中的每个像素分配语义标签的任务。最近的研究表明,用全连接的CRF对CNN的输出进行后处理可以显著提高靠近物体边界的分割准确性[5]。如[26]所解释的那样,全连接CRF模型中的均值场推理相当于对双边滤波器的迭代应用,双边滤波器是一种常用的边缘感知滤波技术。这鼓励将在位置和颜色上相邻的像素分配相同的语义标签。实际上,这产生了与图像中的物体边界对齐的语义分割结果。采用全连接CRF的一个关键障碍是底层双边滤波步骤的计算成本相对较高。双边滤波器在5维双边(2维位置,3维颜色)空间中相当于高维高斯滤波,即使使用先进的算法技术,也在内存和CPU时间方面代价高昂。在本文中,我们提出用域变换(DT)[16]替换全连接CRF及其相关的双边滤波器,这是一种替代的边缘感知滤波器。域变换的递归公式相当于对信号的自适应递归滤波,其中不允许信息在某个参考信号的边缘上传播。这导致了一种极其高效的方案,其速度比具有相同质量的双边滤波器的最快算法快一个数量级。域变换也可以等效地看作是一种递归神经网络(RNN)。特别地,我们展示了域变换是最近提出的带门控循环单元的RNN的特例。这种联系使我们能够共享见解,更好地理解这两种看似不同的方法,正如我们在第3.4节中解释的那样。
域变换中的平滑程度由参考边缘图在空间上调制,而在标准域变换中,参考边缘图对应于图像梯度幅度。相反,我们将从产生语义分割分数的相同CNN的中间层特征中学习参考边缘图,如图1所示。关键是,这使我们能够在端到端可训练的系统中学习一个针对语义图像分割调整的任务特定边缘检测器。我们在具有挑战性的PASCAL VOC 2012语义分割任务上评估了所提出方法的性能。在这个任务中,域变换滤波比密集CRF推理快几倍,而在平均交并比(mIOU)指标方面的表现几乎和密集CRF推理一样好。此外,尽管我们只训练了语义分割,但学习到的边缘图在BSDS500边缘检测基准上的表现也具有竞争力。

图1. 一个统一的CNN同时生成粗糙的语义分割分数和边缘图,分别作为多通道图像的输入和域变换边缘保持滤波器的参考边缘。滤波后的语义分割分数与物体边界很好地对齐。完整的架构通过反向传播(红色虚线箭头)进行判别式训练,以优化目标语义分割。
2.相关工作
语义图像分割中的深度卷积神经网络(CNNs)已经在语义图像分割任务上展现出了出色的性能。然而,由于使用了最大池化层和下采样,这些网络的输出往往具有定位不准确的物体边界。为了解决这个问题,已经采用了几种方法。[31,19,5]提出从深度网络的中间层提取特征以更好地估计物体边界。[45,33]提出了使用反卷积层和反池化层来恢复最大池化层的“空间不变性”效果的网络。[14,32]使用超像素表示,实际上是利用低级分割方法来定位任务。全连接条件随机场(CRF)[26]已经应用于捕捉像素之间的长程依赖性,在[5,28,30,34]中取得了进一步的改进。当通过CRF进行反向传播以细化分割CNN时,在[46,38]中展示了更好的性能。相反地,我们采用了基于域变换[16]的另一种方法,并展示了除了对分割CNN进行改进之外,我们还可以同时学习检测物体边界,将任务特定的边缘检测嵌入到所提出的模型中。
边缘检测边缘/轮廓检测任务有着悠久的历史[25,1,11],我们只简要回顾一下。最近,一些研究通过使用CNNs [2,3,15,21,39,44]在边缘检测任务上取得了出色的性能。我们的工作与[44,3,24]的工作最相关。Xie和Tu [44]也利用了深层网络[40]中间层的特征进行边缘检测,但他们没有将学习到的边缘应用于语义图像分割等高级任务。另一方面,Bertasius等人[3]和Kokkinos [24]利用学习到的边界来提高语义图像分割的性能。然而,边界检测和语义图像分割被认为是两个独立的任务。他们优化了边界检测的性能,而不是高级任务的性能。相反,我们学习对象边界,以直接优化语义图像分割的性能。
具有长短期记忆(LSTM)单元[20]或门控循环单元(GRUs)[8,9]的循环神经网络(RNNs)已经被证明对于建模序列数据(例如文本和语音)中的长期依赖关系非常成功。Sainath等人[37]将CNNs和RNNs结合成一个统一的架构用于语音识别。一些最近的工作尝试使用循环网络来建模计算机视觉任务中的空间长期依赖性[17,41,35,4,43]。我们的工作将CNNs和域变换(DT)与递归滤波[16]相结合,与ReNet [43]有一定的相似之处,它在水平和垂直方向上都执行递归操作以捕捉整个图像中的长期依赖关系。在这项工作中,我们展示了DT和GRU之间的关系,并证明了通过DT利用长期依赖性对语义图像分割的有效性。虽然[42]先前采用了DT(用于联合对象-立体标记),但我们提出通过DT的两个输入进行反向传播,以共同学习分割分数和边缘图的端到端可训练系统。我们展示了与[42]或早期的DT文献[16]中使用的标准图像梯度幅度相比,这些学习到的边缘图带来了显著的改进。
3.提出的模型
3.1.模型概述
我们提出的模型由三个组件组成,如图2所示。它们被联合训练,以优化输出的语义分割质量。第一个组件是基于公开可用的DeepLab模型[5]的粗糙语义分割评分预测。DeepLab修改了VGG-16网络[40]以成为FCN [31]。该模型从VGG-16 ImageNet [36]预训练模型初始化。我们采用了[5]的DeepLab LargeFOV变体,它在滤波器中引入零以扩大其视野,我们简称为DeepLab。我们添加了第二个组件,称为EdgeNet。EdgeNet通过利用DeepLab的中间层特征来预测边缘。在连接之前,通过双线性插值将特征调整为相同的空间分辨率。使用1×1的卷积层和一个输出通道来生成边缘预测。使用ReLU函数使得边缘预测值在零到正无穷的范围内。我们系统中的第三个组件是域变换(DT),它是一种边缘保留滤波器,通过在行和列之间进行可分离的一维递归滤波,非常高效。虽然DT传统上用于图形应用[16],但我们使用它来过滤原始的CNN语义分割得分,以更好地与对象边界对齐,由EdgeNet生成的边缘图进行引导。
在第3.2节中,我们回顾了标准的DT方法,然后在第3.3节中将其扩展为一个完全可


1万+

被折叠的 条评论
为什么被折叠?



