从3x3到5x5：感受野计算与卷积核选择背后的数学逻辑

最新推荐文章于 2026-06-16 16:50:50 发布

原创

最新推荐文章于 2026-06-16 16:50:50 发布 · 68 阅读

·

0

·

标签

#感受野 #卷积核 #CNN

1. 感受野：卷积神经网络的"视野范围"

想象一下你正在用放大镜观察一幅画。放大镜的镜片大小决定了你一次能看到画面的多少内容——这就是感受野最直观的类比。在卷积神经网络(CNN)中，感受野指的是特征图上每个像素点能够"看到"的原始输入图像的区域范围。

我第一次接触这个概念时也犯过迷糊：为什么一个3x3的小卷积核经过多层堆叠后，最后的神经元竟然能看到整张图片？后来通过一个简单的实验才恍然大悟。假设我们有一张5x5的灰度图像：

[1,1,1,1,1]
[1,1,1,1,1] 
[1,1,1,1,1]
[1,1,1,1,1]
[1,1,1,1,1]

用3x3卷积核(stride=1, padding=0)做第一次卷积后，得到3x3的特征图。这时每个特征点的感受野确实是3x3。但当我们对这个3x3特征图再次用3x3卷积时，神奇的事情发生了——最终1x1输出对应的原始图像区域其实是5x5！这就是感受野的叠加效应。

2. 3x3 vs 5x5：数学视角的深度对比

2.1 感受野等效性验证

从数学上看，两个3x3卷积核串联与单个5x5卷积核在感受野上是等价的。让我们用公式推导验证这一点：

对于两层3x3卷积：

第一层感受野：3
第二层感受野：3 + (3-1)*1 = 5

对于单层5x5卷积：

直接得到感受野：5

这个简单的计算解释了为什么VGG网络坚持使用3x3卷积堆叠——用更小的卷积核可以达到与大卷积核相同的感受野。

2.2 参数量与计算效率

但真正让工程师们选择3x3卷积的，是它在参数效率上的巨大优势。让我们做个对比计算：

假设输入输出通道数都是C：

两个3x3卷积参数量：2 × (3×3×C×C) = 18C²
一个5x5卷积参数量：5×5×C×C = 25C²

当C=64时(这是常见的中等通道数)：

<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。