RepLKNet：揭秘31×31超大卷积核如何超越Swin Transformer的视觉霸主地位

最新推荐文章于 2026-06-23 20:02:32 发布

原创

最新推荐文章于 2026-06-23 20:02:32 发布 · 174 阅读

标签

#RepLKNet #CNN #Swin Transformer #计算机视觉

1. 为什么我们需要重新思考卷积核的大小？

在计算机视觉领域，卷积神经网络（CNN）长期以来都是图像处理任务的主力军。传统的CNN设计哲学认为，使用多个小卷积核（比如3×3）堆叠的方式，比直接使用大卷积核更有效。这个观点在VGG网络时代就被广泛接受，并一直延续到现在。但最近几年，随着视觉Transformer（ViT）的兴起，这个传统认知正在被打破。

我清楚地记得第一次看到Swin Transformer的表现时那种惊讶的感觉。它在ImageNet等基准测试上的优异表现，让很多人开始怀疑：CNN的时代是不是要结束了？但就在大家纷纷转向Transformer架构时，清华大学丁霄汉团队提出的RepLKNet却给出了一个出人意料的答案——不是CNN不行了，而是我们可能一直用错了方式。

RepLKNet最颠覆性的设计就是采用了31×31的超大卷积核。这个尺寸在传统CNN设计中几乎是不可想象的。我记得早期做图像处理时，最大的卷积核也不过7×7。那么，为什么大卷积核突然又变得有吸引力了呢？

关键在于感受野。大卷积核能提供更大的感受野，让网络在单层就能捕捉更大范围的上下文信息。这与Transformer的自注意力机制有异曲同工之妙——都能建立长距离依赖关系。但相比Transformer，CNN在硬件优化和计算效率上有着天然优势。