【语义分割】全卷积网络（Fully Convolutional Networks, FCN）详解

最新推荐文章于 2026-04-08 20:00:24 发布

原创

最新推荐文章于 2026-04-08 20:00:24 发布 · 6k 阅读

标签

#深度学习 #计算机视觉 #卷积神经网络 #图像处理 #人工智能

《Fully Convolutional Networks for Semantic Segmentation》论文提出了FCN，解决了传统CNN在语义分割中的效率和精度问题。FCN通过去除全连接层并使用反卷积，实现了任意尺寸输入的像素级分类。网络结构包括FCN-32s、FCN-16s和FCN-8s，通过不同层次的上采样和融合提高输出质量。训练过程分四阶段，逐步提高分割精度。然而，FCN的上采样结果仍存在模糊性，且未充分利用像素间关系。

论文题目：《Fully Convolutional Networks for Semantic Segmentation》
论文地址：https://arxiv.org/abs/1411.4038

传统的基于CNN的语义分割方法

传统的基于CNN的语义分割方法为了对一个像素分类，使用该像素周围的一个图像块作为CNN的输入，用于训练和预测。这种方法有以下几个缺点：

1）存储开销很大、例如，对一个像素使用的图像块的大小为15×15，然后不断滑动窗口，每次滑动的窗口给CNN进行判别分类。因此，所需的存储空间根据滑动窗口的次数和大小急剧上升。
2）计算效率低下。相邻的像素块基本上是重复的，针对每个像素块逐个计算卷积，这种计算也有很大程度上的重复。
3）像素块的大小限制了感受野的大小。通常像素块的大小比整幅图像的大小小很多，只能提取一些局部特征，从而导致分类的性能受到限制。

1. FCN概述

通常CNN网络在卷积层之后会接上若干个全连接层, 将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量。以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务，因为它们最后都期望得到整个输入图像的一个数值描述（概率），比如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)。
FCN对图像进行像素级的分类，从而解决了语义级别的图像分割（semantic segmentation）问题。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类（全联接层＋sof

最低0.47元/天解锁文章