从3x3到5x5:感受野计算与卷积核选择背后的数学逻辑

1. 感受野:卷积神经网络的"视野范围"

想象一下你正在用放大镜观察一幅画。放大镜的镜片大小决定了你一次能看到画面的多少内容——这就是感受野最直观的类比。在卷积神经网络(CNN)中,感受野指的是特征图上每个像素点能够"看到"的原始输入图像的区域范围。

我第一次接触这个概念时也犯过迷糊:为什么一个3x3的小卷积核经过多层堆叠后,最后的神经元竟然能看到整张图片?后来通过一个简单的实验才恍然大悟。假设我们有一张5x5的灰度图像:

[1,1,1,1,1]
[1,1,1,1,1] 
[1,1,1,1,1]
[1,1,1,1,1]
[1,1,1,1,1]

用3x3卷积核(stride=1, padding=0)做第一次卷积后,得到3x3的特征图。这时每个特征点的感受野确实是3x3。但当我们对这个3x3特征图再次用3x3卷积时,神奇的事情发生了——最终1x1输出对应的原始图像区域其实是5x5!这就是感受野的叠加效应。

2. 3x3 vs 5x5:数学视角的深度对比

2.1 感受野等效性验证

从数学上看,两个3x3卷积核串联与单个5x5卷积核在感受野上是等价的。让我们用公式推导验证这一点:

对于两层3x3卷积:

  • 第一层感受野:3
  • 第二层感受野:3 + (3-1)*1 = 5

对于单层5x5卷积:

  • 直接得到感受野:5

这个简单的计算解释了为什么VGG网络坚持使用3x3卷积堆叠——用更小的卷积核可以达到与大卷积核相同的感受野。

2.2 参数量与计算效率

但真正让工程师们选择3x3卷积的,是它在参数效率上的巨大优势。让我们做个对比计算:

假设输入输出通道数都是C:

  • 两个3x3卷积参数量:2 × (3×3×C×C) = 18C²
  • 一个5x5卷积参数量:5×5×C×C = 25C²

当C=64时(这是常见的中等通道数):

    <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值