用PyTorch和ResNet-18复现FCN语义分割：从预训练模型到像素级预测的保姆级教程

最新推荐文章于 2026-06-05 11:56:56 发布

原创

最新推荐文章于 2026-06-05 11:56:56 发布 · 208 阅读

标签

#FCN #语义分割 #PyTorch #ResNet-18

用PyTorch和ResNet-18构建FCN语义分割模型的实战指南

语义分割是计算机视觉领域的重要任务，它要求模型对图像中的每个像素进行分类。全卷积网络（FCN）作为该领域的里程碑式工作，通过将传统CNN的全连接层替换为卷积层，实现了端到端的像素级预测。本文将带你从零开始，基于PyTorch框架和预训练的ResNet-18模型，构建一个完整的FCN语义分割系统。

1. 环境准备与数据加载

在开始之前，我们需要配置好开发环境并准备数据集。建议使用Python 3.8+和PyTorch 1.10+版本，这些版本在兼容性和性能方面都有良好表现。

首先安装必要的依赖包：

pip install torch torchvision matplotlib opencv-python

对于语义分割任务，Pascal VOC数据集是一个经典的选择。它包含20个物体类别和1个背景类别，共计21类。以下是加载和预处理数据的代码示例：

from torchvision import datasets, transforms
import torch.utils.data as data

# 定义数据预处理流程
transform = transforms.Compose([
    transforms.Resize((320, 480)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], 
                         std=[0.229, 0.224, 0.225])
])

# 加载Pascal VOC数据集
voc_train = datasets.VOCSegmentation(
    root='./data', year='2012', image_set='train', 
    download=True, transform=transform)
voc_val = datasets.VOCSegmentation(
    root='./data', year='2012', image_set='val',
    download=True, transform=transform)

# 创建数据加载器
batch_size = 8
train_loader = data.DataLoader(voc_train, batch_size=batch_size, shuffle=True)
val_loader = data.DataLoader(voc_val, batch_size=batch_size)

注意：Pascal VOC数据集大小约2GB，下载可能需要一些时间。确保有足够的磁盘空间和稳定的网络连接。

数据预处理中几个关键点：

统一调整图像尺寸为320×480
转换为Tensor并归一化
使用ImageNet的均值和标准差进行标准化

2. 构建FCN模型架构

FCN的核心思想是将传统CNN的全连接层替换为卷积层，并通过转置卷积（反卷积）将特征图上采样到原始输入尺寸。我们将基于预训练的ResNet-18来构建FCN模型。

2.1 修改ResNet-18基础网络

ResNet-18最后包含全局平均池化层和全连接层，这些在FCN中需要移除。我们只需要保留前面的卷积层作为特征提取器。

import torchvision.models as models
import torch.nn as nn

class FCN(nn.Module):
    def __init__(self, num_classes=21):
        super(FCN, self).__init__()