从ResNet到DINOv2:解码半监督语义分割的编码器进化史
1. 视觉编码器的演进与半监督语义分割的挑战
在计算机视觉领域,语义分割任务一直面临着标注成本高昂的难题。以Cityscapes数据集为例,单张图像的精细标注需要专业标注员投入约1.5小时。这种高成本催生了半监督语义分割(SSS)技术的发展,其核心在于如何高效利用大量未标注数据提升模型性能。
传统SSS方法长期依赖ResNet等卷积神经网络作为特征提取器。这些编码器虽然在ImageNet-1K等中等规模数据集上表现尚可,但面对现代视觉任务的复杂需求已显疲态。ResNet-101作为经典基准,其59.5M参数量带来的计算负担与性能提升逐渐不成正比。
关键瓶颈体现在三个方面:
- 有限感受野难以捕捉长距离依赖
- 基于局部卷积的特征提取方式对全局上下文理解不足
- 小规模预训练导致特征表达能力受限
典型ResNet编码器结构示例:
ResNet-50/101/152
├─ 初始卷积层(7x7卷积)
├─ 4个阶段(stage)的残差块
│ ├─ 每个阶段包含多个bottleneck结构
│ └─ 通过步长2的卷积进行下采样
└─ 全局平均池化层
与此同时,视觉Transformer(ViT)架构的崛起带来了新的可能性。特别是Meta提出的DINOv2系列模型,通过在大规模数据集(如LVD-142M)上的自监督预训练,展现出惊人的特征泛化能力。DINOv2-S仅用24.8M参数(比ResNet-101少58%),在多项视觉任务上实现了显著超越。
2. DINOv2的技术突破与优势解析
DINOv2的成功并非偶然,其技术架构包含多项创新设计:
核心创新点:
- 大规模自监督预训练:利用1.42亿精选图像进行训练,远超ImageNet-1K的规模
- 改进的蒸馏框架:结


1万+

被折叠的 条评论
为什么被折叠?



