语义分割 semantic segmentation
语义分割算法的思想即使用CNN为每一个像素分配一个标签,最后展现的结果即可识别目标的轮廓。
为了将单独的像素映射给标签,需要将标准的CNN结构扩展为编码器-解码器架构:
- 编码器使用卷积层和池化层将特征图尺寸缩小,使其成为更低维的表征;
- 解码器接收到这一表征,用通过转置卷积执行上采样而「恢复」空间维度,这样每一个转置卷积都能扩展特征图尺寸。
条件随机场 conditional random fields,CRF
CNN为每个像素块识别的分类标签可能不正确(无法匹配其周围的像素标签,即不连续性),为了应对这一现象,早期使用条件随机场(CRF)。 使用原始图像中像素的相似性重新精炼CNN的标签,以下图为例,图c中CNN得到的标签为背景bg、猫cat、狗dog,考虑像素之间的关联性修正标签得到图d。
评价指标
1)平均交并比(mean Interp of Union,mIOU):衡量预测结果区域跟真实区域之间的关系
IOU定义见上文,与目标检测含义一致,mIOU即所有预测结果的IOU取均值
2)像素准确率(Pixel Accuracy,PA):预测正确的像素值占总像素值的百分比
Accuracy的计算可对比Precision与Recall进行理解,公式为:(TP+TN)/(TP+FP+TN+FN)
3)类别像素准确率(class Pixel Accuracy,CPA):在所有预测为类别i的像素点中,真实属于类别i的像素点所占的百分比
定义与目标检测中的Precision相同,即TP/(TP+FP)
4)类别平均像素准确率(mPA):所有类别像素准确率CPA之和的平均
5)dice系数:医学中常用,2*TP/(TP+FP+TN+FN)
代表性算法
1. FCN[2014/11/14]:Fully Convolutional Networks,全卷积网络,第一个真正意义上的深度学习方法语义分割模型
-
重新将预训练好的网络用于分割问题中
-
使用反卷积层(上卷积/完全卷积/转置卷积/分形卷积)进行上采样(预训练的模型因CNN中的池化操作被下采样了)
-
提出了跳跃连接Skip connection来改善上采样的粗糙程度
-
用卷积运算实现全连接层结构(使用卷积核遍历整个输入区域的卷积操作)
-
在VOC2012上测试:mIOU=62.2%
FCN使用不同骨干网络的结果差别及最终在测试集上的表现:

2. SegNet[2015/11/2]:经典语义分割模型,运用编码-解码结构,在内存使用上比FCN更为高效
-
在VOC2012上测试:mIOU=59.9%(数据来源非论文,论文中仅公布了CamVid上的结果)

SegNet的资源使用对比:

3. Deeplab系列[v1:2014/12/22,v2:2016/6/2,v3:2017/6/17,v3+:2018/8/22]:,经典语义分割模型
v1:DeepLab-LargeFOV,骨干网络VGG-16
-
使用全连接条件随机场(fully-connected CRF / DenseCRF),以得到更加精细的边缘细节
-
提出空洞卷积思想,兼顾感受野和计算效率
-
尝试了多尺度、多层次的信息融合
-
v1在VOC2012上测试:mIOU=71.6%
v2:DeepLab-ASPP,结构为:ResNet-101 + 空洞卷积 + ASPP + CRF
-
使用ResNet101代替VGG16(ResNet在2015年出现,见图像分类章节),ResNet101的表现要更好于VGG16,不论是分类/分割/检测
-
在空间维度上实现金字塔型的空洞池化atrous spatial pyramid pooling(ASPP)
-
v2在VOC2012上测试:mIOU=79.7%
v3:
-
改善ASPP(大的扩张率会导致卷积核有效权重退化)
-
对比不同骨干网络(ResNet50和ResNet101)、不同Multi-Grid组合、不同output_stride对结果的影响
output_stride:矩阵经过多次卷积pooling操作后,尺寸缩小的倍数
-
v3在VOC2012上测试:mIOU=86.9%
4. DenseASPP[2018]:经典语义分割模型
-
骨干网络为DenseNet[2016], 密集连接 ,使特征的通道数急速上升
-
结合密集连接和ASPP,扩张空间金字塔池
语义分割是一种使用深度学习技术为每个像素分配标签的方法,常采用CNN的编码器-解码器结构。条件随机场(CRF)用于优化像素标签的连续性。文章提到了FCN、SegNet和Deeplab系列(包括DeepLabv1-v3+)等代表性算法,讨论了它们的性能和特点,如空洞卷积、ASPP和不同的骨干网络影响。Deeplabv3在VOC2012上取得了高mIOU的优秀表现。

3168

被折叠的 条评论
为什么被折叠?



