[ADAS预研笔记]感知算法 - 语义分割

语义分割是一种使用深度学习技术为每个像素分配标签的方法,常采用CNN的编码器-解码器结构。条件随机场(CRF)用于优化像素标签的连续性。文章提到了FCN、SegNet和Deeplab系列(包括DeepLabv1-v3+)等代表性算法,讨论了它们的性能和特点,如空洞卷积、ASPP和不同的骨干网络影响。Deeplabv3在VOC2012上取得了高mIOU的优秀表现。

语义分割 semantic segmentation

语义分割算法的思想即使用CNN为每一个像素分配一个标签,最后展现的结果即可识别目标的轮廓。

为了将单独的像素映射给标签,需要将标准的CNN结构扩展为编码器-解码器架构:

  • 编码器使用卷积层和池化层将特征图尺寸缩小,使其成为更低维的表征;
  • 解码器接收到这一表征,用通过转置卷积执行上采样而「恢复」空间维度,这样每一个转置卷积都能扩展特征图尺寸。

 

 

条件随机场 conditional random fields,CRF

CNN为每个像素块识别的分类标签可能不正确(无法匹配其周围的像素标签,即不连续性),为了应对这一现象,早期使用条件随机场(CRF)。 使用原始图像中像素的相似性重新精炼CNN的标签,以下图为例,图c中CNN得到的标签为背景bg、猫cat、狗dog,考虑像素之间的关联性修正标签得到图d。

 

评价指标

1)平均交并比(mean Interp of Union,mIOU):衡量预测结果区域跟真实区域之间的关系

IOU定义见上文,与目标检测含义一致,mIOU即所有预测结果的IOU取均值

2)像素准确率(Pixel Accuracy,PA):预测正确的像素值占总像素值的百分比

Accuracy的计算可对比Precision与Recall进行理解,公式为:(TP+TN)/(TP+FP+TN+FN)

3)类别像素准确率(class Pixel Accuracy,CPA):在所有预测为类别i的像素点中,真实属于类别i的像素点所占的百分比

定义与目标检测中的Precision相同,即TP/(TP+FP)

4)类别平均像素准确率(mPA):所有类别像素准确率CPA之和的平均

5)dice系数:医学中常用,2*TP/(TP+FP+TN+FN)

代表性算法

1. FCN[2014/11/14]:Fully Convolutional Networks,全卷积网络,第一个真正意义上的深度学习方法语义分割模型

  • 重新将预训练好的网络用于分割问题中

  • 使用反卷积层(上卷积/完全卷积/转置卷积/分形卷积)进行上采样(预训练的模型因CNN中的池化操作被下采样了)

  • 提出了跳跃连接Skip connection来改善上采样的粗糙程度

  • 用卷积运算实现全连接层结构(使用卷积核遍历整个输入区域的卷积操作)

  • 在VOC2012上测试:mIOU=62.2%

 

FCN使用不同骨干网络的结果差别及最终在测试集上的表现:

 

2. SegNet[2015/11/2]:经典语义分割模型,运用编码-解码结构,在内存使用上比FCN更为高效

  • 在VOC2012上测试:mIOU=59.9%(数据来源非论文,论文中仅公布了CamVid上的结果)

 

 SegNet的资源使用对比:

3. Deeplab系列[v1:2014/12/22,v2:2016/6/2,v3:2017/6/17,v3+:2018/8/22]:,经典语义分割模型

v1:DeepLab-LargeFOV,骨干网络VGG-16

  • 使用全连接条件随机场(fully-connected CRF / DenseCRF),以得到更加精细的边缘细节

  • 提出空洞卷积思想,兼顾感受野和计算效率

  • 尝试了多尺度、多层次的信息融合

  • v1在VOC2012上测试:mIOU=71.6%

 

v2:DeepLab-ASPP,结构为:ResNet-101 + 空洞卷积 + ASPP + CRF

  • 使用ResNet101代替VGG16(ResNet在2015年出现,见图像分类章节),ResNet101的表现要更好于VGG16,不论是分类/分割/检测

  • 在空间维度上实现金字塔型的空洞池化atrous spatial pyramid pooling(ASPP)

  • v2在VOC2012上测试:mIOU=79.7%

v3:

  • 改善ASPP(大的扩张率会导致卷积核有效权重退化)

  • 对比不同骨干网络(ResNet50和ResNet101)、不同Multi-Grid组合、不同output_stride对结果的影响

    output_stride:矩阵经过多次卷积pooling操作后,尺寸缩小的倍数

  • v3在VOC2012上测试:mIOU=86.9%

4. DenseASPP[2018]:经典语义分割模型

  • 骨干网络为DenseNet[2016], 密集连接 ,使特征的通道数急速上升

  • 结合密集连接和ASPP,扩张空间金字塔池

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值