一、CNN(卷积神经网络)

1. 网络结构
-
输入层:输入图像等信息
-
卷积层:用来提取图像的底层特征
-
池化层:下采样(降采样层),防止过拟合,将数据维度减小(降维);最大(Max-Pooling)/平均(Ave-Pooling)
-
全连接层:分类器,汇总卷积层和池化层得到的图像的底层特征和信息;通过激活函数(如

等)进行非线性变换
-
输出层:根据全连接层的信息得到概率最大的结果
2. 模型细节
卷积运算:
-
若步长

:卷积大小结果为

-
若步长

:卷积大小结果为

(N:初始图片大小;P:padding,零填充的层数大小;F:卷积核大小;s:stride,步长)
零填充两种方式:
-
valid:不填充,结果变小
-
same:输出图像与原图大小相同(如:若

,则当

即

时成立)
3. 模型结构图

-
在手写体数字识别的任务中,CNN模型结构如下所示:
-

二、CNN变形
1. 具体模型
LeNet-5、AlexNet、NIN、VGG、GoogLeNet、ResNet、DenseNet、MobileNets等。
2. 网络结构
-
LeNet:两个layer(conv+pool)+两层网络+FC(Fully Connected Layer,全连接层)
-
AlexNet:8层CNN(前5层卷积层,剩下3层全连接层);6000万参数量,首次使用Relu激活函数,dropout+BN(Batch Normalization,批标准化层)


暂停一下!在这里我给大家准备了一些学习资源,对大家很有帮助:
1.关于各个方向的论文代码大全,都是PDF格式很方便!
2.一份《pytorch从零入门到实战教程》告诉你每一步怎么写,为什么这么写,相当的详细,非常值得大家去阅读!
ps:【偷偷提一嘴如果大家有发论文的需求也可以找我~】
大家需要的话可以添加小助手无偿获取


-
NIN:Network In Network,1×1卷积,使得输入任意的特征图大小,输出为1×1×?,相当于一种全连接层/卷积化(全连接的输入是固定的,而卷积层可以处理任意大小输入,故相当于把全连接层变成卷积层,即卷积化);对多个通道进行信息整合,通道进行线性回归运算;达到通道数的变化,升维/降维/通道数不变,参数数量较少
-
VGG:参数量巨大,140M=140亿,19layers,VGG版本16/19(下图为VGG16,共16 个可训练层,其中13 个卷积层和 3 个全连接层,一般作为编码器,通过卷积层提取特征,再通过池化层降维,从而有效保留关键特征。)

-
GoogLeNet:参数较少,引入Inception V1, V2, V3, V4模块(通过并行的卷积操作来提取多尺度特征),造成参数变少

-
ResNet:残差网络、深度卷积神经网络架构
-
残差学习:学习输入和输出之间的残差(即差异),而不是直接映射关系。
-
残差块(Residual Blocks


25万+

被折叠的 条评论
为什么被折叠?



