1. 无监督图像分类的困境与突破
想象一下你面前有十万张没有任何标签的图片,需要将它们按照内容自动分类。传统方法就像让一个刚出生的婴儿直接学习区分猫狗——没有先验知识,只能从像素级特征开始摸索。这正是无监督图像分类面临的本质挑战:如何在没有人工标注的情况下,让机器理解语义信息。
当前主流方法存在两大技术瓶颈:一是端到端学习容易陷入低级特征陷阱,比如仅凭纹理或颜色差异进行分类;二是传统聚类算法(如K-means)在图像数据上表现糟糕,准确率往往不足50%。我在处理卫星图像分类项目时就深有体会——当算法把沙漠和海滩都归类为"黄色区域"时,才意识到低级特征的局限性。
SCAN(Semantic Clustering by Adopting Nearest neighbors)的巧妙之处在于它的分阶段学习策略:
- 特征预训练阶段:使用SimCLR等自监督方法,让模型学会区分"这张图片是否来自同一张图的变形"
- 语义聚类阶段:基于特征相似度构建最近邻图,通过一致性损失函数优化聚类
这就好比先让婴儿观察各种物体变形(旋转、裁剪等),建立"物体恒常性"认知,再根据相似性归类。实验数据显示,这种两步法在CIFAR-10上准确率可达87.6%,比传统K-means高出近30个百分点。
2. 自监督表征学习:构建语义基石
2.1 代理任务的魔法
自监督学习的核心是设计巧妙的代理任务(pretext task)。常见的有:
- 拼图游戏:打乱图像块让模型重组
- 旋转预测:判断图像旋转角度
- 实例判别:识别是否同一图像的不同增强版本
我在实验中发现,使用MoCo v2框架时,适当调整温度参数τ能显著改善特征质量。当τ=0.2时,CIFAR-10的特征相似度矩阵呈现出清晰的区块结构(如下图):


860

被折叠的 条评论
为什么被折叠?



