[ADAS预研笔记]感知算法 - 语义分割

最新推荐文章于 2024-01-26 15:22:58 发布

原创最新推荐文章于 2024-01-26 15:22:58 发布 · 360 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#算法 #笔记 #神经网络 #深度学习

ADAS预研笔记专栏收录该内容

19 篇文章

订阅专栏

语义分割是一种使用深度学习技术为每个像素分配标签的方法，常采用CNN的编码器-解码器结构。条件随机场（CRF）用于优化像素标签的连续性。文章提到了FCN、SegNet和Deeplab系列（包括DeepLabv1-v3+）等代表性算法，讨论了它们的性能和特点，如空洞卷积、ASPP和不同的骨干网络影响。Deeplabv3在VOC2012上取得了高mIOU的优秀表现。

语义分割 semantic segmentation

语义分割算法的思想即使用CNN为每一个像素分配一个标签，最后展现的结果即可识别目标的轮廓。

为了将单独的像素映射给标签，需要将标准的CNN结构扩展为编码器-解码器架构：

编码器使用卷积层和池化层将特征图尺寸缩小，使其成为更低维的表征；
解码器接收到这一表征，用通过转置卷积执行上采样而「恢复」空间维度，这样每一个转置卷积都能扩展特征图尺寸。

条件随机场 conditional random fields,CRF

CNN为每个像素块识别的分类标签可能不正确（无法匹配其周围的像素标签，即不连续性），为了应对这一现象，早期使用条件随机场（CRF）。使用原始图像中像素的相似性重新精炼CNN的标签，以下图为例，图c中CNN得到的标签为背景bg、猫cat、狗dog，考虑像素之间的关联性修正标签得到图d。

评价指标

1）平均交并比（mean Interp of Union，mIOU）：衡量预测结果区域跟真实区域之间的关系

IOU定义见上文，与目标检测含义一致，mIOU即所有预测结果的IOU取均值

2）像素准确率（Pixel Accuracy，PA）：预测正确的像素值占总像素值的百分比

Accuracy的计算可对比Precision与Recall进行理解，公式为：(TP+TN)/(TP+FP+TN+FN)

3）类别像素准确率（class Pixel Accuracy，CPA）：在所有预测为类别i的像素点中，真实属于类别i的像素点所占的百分比

定义与目标检测中的Precision相同，即TP/(TP+FP)

4）类别平均像素准确率（mPA）：所有类别像素准确率CPA之和的平均

5）dice系数：医学中常用，2*TP/(TP+FP+TN+FN)

代表性算法

1. FCN[2014/11/14]：Fully Convolutional Networks，全卷积网络，第一个真正意义上的深度学习方法语义分割模型

重新将预训练好的网络用于分割问题中
使用反卷积层（上卷积/完全卷积/转置卷积/分形卷积）进行上采样(预训练的模型因CNN中的池化操作被下采样了)
提出了跳跃连接Skip connection来改善上采样的粗糙程度
用卷积运算实现全连接层结构(使用卷积核遍历整个输入区域的卷积操作)
在VOC2012上测试：mIOU=62.2%

FCN使用不同骨干网络的结果差别及最终在测试集上的表现：

2. SegNet[2015/11/2]：经典语义分割模型，运用编码-解码结构，在内存使用上比FCN更为高效

在VOC2012上测试：mIOU=59.9%（数据来源非论文，论文中仅公布了CamVid上的结果）

SegNet的资源使用对比：

3. Deeplab系列[v1:2014/12/22，v2:2016/6/2，v3:2017/6/17，v3+:2018/8/22]：，经典语义分割模型

v1：DeepLab-LargeFOV，骨干网络VGG-16

使用全连接条件随机场(fully-connected CRF / DenseCRF)，以得到更加精细的边缘细节
提出空洞卷积思想，兼顾感受野和计算效率
尝试了多尺度、多层次的信息融合
v1在VOC2012上测试：mIOU=71.6%

v2：DeepLab-ASPP，结构为：ResNet-101 + 空洞卷积 + ASPP + CRF

使用ResNet101代替VGG16（ResNet在2015年出现，见图像分类章节），ResNet101的表现要更好于VGG16，不论是分类/分割/检测
在空间维度上实现金字塔型的空洞池化atrous spatial pyramid pooling(ASPP)
v2在VOC2012上测试：mIOU=79.7%

v3：

改善ASPP（大的扩张率会导致卷积核有效权重退化）
对比不同骨干网络(ResNet50和ResNet101)、不同Multi-Grid组合、不同output_stride对结果的影响

output_stride：矩阵经过多次卷积pooling操作后，尺寸缩小的倍数
v3在VOC2012上测试：mIOU=86.9%

4. DenseASPP[2018]：经典语义分割模型