从ResNet到DINOv2：解码半监督语义分割的编码器进化史

最新推荐文章于 2026-06-25 23:28:01 发布

原创

最新推荐文章于 2026-06-25 23:28:01 发布 · 366 阅读

标签

#半监督语义分割 #DINOv2 #计算机视觉

从ResNet到DINOv2：解码半监督语义分割的编码器进化史

1. 视觉编码器的演进与半监督语义分割的挑战

在计算机视觉领域，语义分割任务一直面临着标注成本高昂的难题。以Cityscapes数据集为例，单张图像的精细标注需要专业标注员投入约1.5小时。这种高成本催生了半监督语义分割（SSS）技术的发展，其核心在于如何高效利用大量未标注数据提升模型性能。

传统SSS方法长期依赖ResNet等卷积神经网络作为特征提取器。这些编码器虽然在ImageNet-1K等中等规模数据集上表现尚可，但面对现代视觉任务的复杂需求已显疲态。ResNet-101作为经典基准，其59.5M参数量带来的计算负担与性能提升逐渐不成正比。

关键瓶颈体现在三个方面：

有限感受野难以捕捉长距离依赖
基于局部卷积的特征提取方式对全局上下文理解不足
小规模预训练导致特征表达能力受限

典型ResNet编码器结构示例：
ResNet-50/101/152
├─ 初始卷积层（7x7卷积）
├─ 4个阶段（stage）的残差块
│  ├─ 每个阶段包含多个bottleneck结构
│  └─ 通过步长2的卷积进行下采样
└─ 全局平均池化层

与此同时，视觉Transformer（ViT）架构的崛起带来了新的可能性。特别是Meta提出的DINOv2系列模型，通过在大规模数据集（如LVD-142M）上的自监督预训练，展现出惊人的特征泛化能力。DINOv2-S仅用24.8M参数（比ResNet-101少58%），在多项视觉任务上实现了显著超越。