CV视觉模型发展全景：从传统CNN到多模态大模型的85个经典架构

最新推荐文章于 2026-06-21 14:18:19 发布

原创最新推荐文章于 2026-06-21 14:18:19 发布 · 49 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#AlexNet #VGG #ResNet #DETR #SAM

CV视觉模型发展全景：从传统CNN到多模态大模型的85个经典架构

视觉研究者都有同感，标注数据成本实在太高。为了不在这上面烧钱，各路大神开始用无标注数据、网上爬的图文、多模态数据来预训练，通过对比学习、掩码重建这些套路让模型先学会一些通用能力，然后再微调到检测、分割这些具体任务。

这波大模型的浪潮席卷而来，CV领域也诞生了无数新模型。

现在视觉基础模型已经相当多了，对于我们做CV的人来说，这些模型的研究价值极高。今天我分享一篇综述，帮大家系统梳理一下。

这篇综述把CV基础模型分成了13大类，加起来85个变体，从LeNet、ResNet这些元老级模型到SAM、GPT4这些新贵，全部囊括。

我还额外准备了120篇2021-2023年的CV必读论文，很多都是顶会成果，很多都开源了代码。

说到底，虽然现在的方法已经挺强了，但视觉基础模型的进步空间还是很大。大家可以顺着这个方向找找灵感。

论文list：Survey 12篇，2021年11篇，2022年14篇，2023年83篇。

别犹豫，扫码加企业微信，备注"转行"，帮你规划学习路径！

大家好，我是资深AI讲师与学习规划师。专注计算机视觉教学与算法研发，过去三年我帮超过2500名有Python 基础的入门者，从"像素是什么"到"独立跑通CV项目"。今天这篇长文，完全按零基础实战体系撰写，从图像本质到经典算法、再到OpenCV工具链和完整项目，一条龙给你讲透可直接复现的CV专业指南。

适合人群：大学生、转行者、开发者，只要会Python基础，就能跟上。读完你就能掌握图像处理4大经典算法，并拥有一个可直接写进简历的实战项目，

为方便大家学习这里给大家整理了一份系统学习资料包需要的同学根据下图指示自取就可以

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。