1*1卷积的作用

最新推荐文章于 2026-04-01 10:54:59 发布

转载最新推荐文章于 2026-04-01 10:54:59 发布 · 8.3k 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://blog.csdn.net/u011862114/article/details/80530963?utm_source=blogxgwz2

cv 专栏收录该内容

23 篇文章

订阅专栏

1*1卷积的主要作用有以下几点：

1、降维（ dimension reductionality ）。比如，一张500 * 500且厚度depth为100 的图片在20个filter上做1*1的卷积，那么结果的大小为500*500*20。

2、加入非线性。卷积层之后经过激励层，1*1的卷积在前一层的学习表示上添加了非线性激励（ non-linear activation ），提升网络的表达能力；

下图是Inception模块，为了消除尺寸对于识别结果的影响，一次性使用多个不同filter size来抓取多个范围不同的概念，让网络能够自己选择需要的特征。可以看到在Inception模块中，每个分支都加上一个1*1卷积的部分，这里1*1卷积的作用是让网络根据需要能够更灵活地控制数据的depth（即通道数），通过1*1卷积，可以将不同分支的feature map通道数调整到一直，便于后续操作（相加或concat）。这里的1*1卷积不止能降维，也可以升维，这完全取决与1*1卷积的通道数。

3、跨通道信息交互（channal 的变换）

如：使用1*1卷积核，实现降维和升维的操作其实就是channel间信息的线性组合变化，3*3，64channels的卷积核前面添加一个1*1，28channels的卷积核，就变成了3*3，28channels的卷积核，原来的64个channels就可以理解为跨通道线性组合变成了28channels，这就是通道间的信息交互。

以下来自http://www.caffecn.cn/?/question/136

我来说说我的理解，我认为1×1的卷积大概有两个方面的作用吧：
1. 实现跨通道的交互和信息整合
2. 进行卷积核通道数的降维和升维

下面详细解释一下：
1. 这一点孙琳钧童鞋讲的很清楚。1×1的卷积层（可能）引起人们的重视是在NIN的结构中，论文中林敏师兄的想法是利用MLP代替传统的线性卷积核，从而提高网络的表达能力。文中同时利用了跨通道pooling的角度解释，认为文中提出的MLP其实等价于在传统卷积核后面接cccp层，从而实现多个feature map的线性组合，实现跨通道的信息整合。而cccp层是等价于1×1卷积的，因此细看NIN的caffe实现，就是在每个传统卷积层后面接了两个cccp层（其实就是接了两个1×1的卷积层）。
2. 进行降维和升维引起人们重视的（可能）是在GoogLeNet里。对于每一个Inception模块（如下图），原始模块是左图，右图中是加入了1×1卷积进行降维的。虽然左图的卷积核都比较小，但是当输入和输出的通道数很大时，乘起来也会使得卷积核参数变的很大，而右图加入1×1卷积后可以降低输入的通道数，卷积核参数、运算复杂度也就跟着降下来了。以GoogLeNet的3a模块为例，输入的feature map是28×28×192，3a模块中1×1卷积通道为64，3×3卷积通道为128,5×5卷积通道为32，如果是左图结构，那么卷积核参数为1×1×192×64+3×3×192×128+5×5×192×32，而右图对3×3和5×5卷积层前分别加入了通道数为96和16的1×1卷积层，这样卷积核参数就变成了1×1×192×64+（1×1×192×96+3×3×96×128）+（1×1×192×16+5×5×16×32），参数大约减少到原来的三分之一。同时在并行pooling层后面加入1×1卷积层后也可以降低输出的feature map数量，左图pooling后feature map是不变的，再加卷积层得到的feature map，会使输出的feature map扩大到416，如果每个模块都这样，网络的输出会越来越大。而右图在pooling后面加了通道为32的1×1卷积，使得输出的feature map数降到了256。GoogLeNet利用1×1的卷积降维后，得到了更为紧凑的网络结构，虽然总共有22层，但是参数数量却只是8层的AlexNet的十二分之一（当然也有很大一部分原因是去掉了全连接层）。