1. 感受野:卷积神经网络的"视野范围"
想象一下你正在用放大镜观察一幅画。放大镜的镜片大小决定了你一次能看到画面的多少内容——这就是感受野最直观的类比。在卷积神经网络(CNN)中,感受野指的是特征图上每个像素点能够"看到"的原始输入图像的区域范围。
我第一次接触这个概念时也犯过迷糊:为什么一个3x3的小卷积核经过多层堆叠后,最后的神经元竟然能看到整张图片?后来通过一个简单的实验才恍然大悟。假设我们有一张5x5的灰度图像:
[1,1,1,1,1]
[1,1,1,1,1]
[1,1,1,1,1]
[1,1,1,1,1]
[1,1,1,1,1]
用3x3卷积核(stride=1, padding=0)做第一次卷积后,得到3x3的特征图。这时每个特征点的感受野确实是3x3。但当我们对这个3x3特征图再次用3x3卷积时,神奇的事情发生了——最终1x1输出对应的原始图像区域其实是5x5!这就是感受野的叠加效应。
2. 3x3 vs 5x5:数学视角的深度对比
2.1 感受野等效性验证
从数学上看,两个3x3卷积核串联与单个5x5卷积核在感受野上是等价的。让我们用公式推导验证这一点:
对于两层3x3卷积:
- 第一层感受野:3
- 第二层感受野:3 + (3-1)*1 = 5
对于单层5x5卷积:
- 直接得到感受野:5
这个简单的计算解释了为什么VGG网络坚持使用3x3卷积堆叠——用更小的卷积核可以达到与大卷积核相同的感受野。
2.2 参数量与计算效率
但真正让工程师们选择3x3卷积的,是它在参数效率上的巨大优势。让我们做个对比计算:
假设输入输出通道数都是C:
- 两个3x3卷积参数量:2 × (3×3×C×C) = 18C²
- 一个5x5卷积参数量:5×5×C×C = 25C²
当C=64时(这是常见的中等通道数):
-
<


3243

被折叠的 条评论
为什么被折叠?



