万字解析!一文快速预览经典深度学习模型——CNN、RNN、LSTM、Transformer、ViT

一、CNN(卷积神经网络)

1. 网络结构

  • 输入层:输入图像等信息

  • 卷积层:用来提取图像的底层特征

  • 池化层:下采样(降采样层),防止过拟合,将数据维度减小(降维);最大(Max-Pooling)/平均(Ave-Pooling)

  • 全连接层:分类器,汇总卷积层和池化层得到的图像的底层特征和信息;通过激活函数(如 

    ReLU, Sigmoid, Tanh, softmax

     等)进行非线性变换

  • 输出层:根据全连接层的信息得到概率最大的结果

2. 模型细节

卷积运算:

  • 若步长 

    s=1

    :卷积大小结果为 

    N+2P-F+1

  • 若步长 

    s\neq 1

    :卷积大小结果为 

    \frac{N+2P-F}{s}+1

    (N:初始图片大小;P:padding,零填充的层数大小;F:卷积核大小;s:stride,步长)

零填充两种方式:

  • valid:不填充,结果变小

  • same:输出图像与原图大小相同(如:若 

    s=1

    ,则当 

    N+2P-F+1=N

     即 

    P=\frac{1}{2}

     时成立)

3. 模型结构图

  • 在手写体数字识别的任务中,CNN模型结构如下所示:

二、CNN变形

1. 具体模型

LeNet-5、AlexNet、NIN、VGG、GoogLeNet、ResNet、DenseNet、MobileNets等。

2. 网络结构

  • LeNet:两个layer(conv+pool)+两层网络+FC(Fully Connected Layer,全连接层)

  • AlexNet:8层CNN(前5层卷积层,剩下3层全连接层);6000万参数量,首次使用Relu激活函数,dropout+BN(Batch Normalization,批标准化层)

暂停一下!在这里我给大家准备了一些学习资源,对大家很有帮助:

1.关于各个方向的论文代码大全,都是PDF格式很方便!

2.一份《pytorch从零入门到实战教程》告诉你每一步怎么写,为什么这么写,相当的详细,非常值得大家去阅读!

ps:【偷偷提一嘴如果大家有发论文的需求也可以找我~】

大家需要的话可以添加小助手无偿获取

  • NIN:Network In Network,1×1卷积,使得输入任意的特征图大小,输出为1×1×?,相当于一种全连接层/卷积化(全连接的输入是固定的,而卷积层可以处理任意大小输入,故相当于把全连接层变成卷积层,即卷积化);对多个通道进行信息整合,通道进行线性回归运算;达到通道数的变化,升维/降维/通道数不变,参数数量较少

  • VGG:参数量巨大,140M=140亿,19layers,VGG版本16/19(下图为VGG16,共16 个可训练层,其中13 个卷积层和 3 个全连接层,一般作为编码器,通过卷积层提取特征,再通过池化层降维,从而有效保留关键特征。)

  • GoogLeNet:参数较少,引入Inception V1, V2, V3, V4模块(通过并行的卷积操作来提取多尺度特征),造成参数变少

  • ResNet:残差网络、深度卷积神经网络架构

  1. 残差学习:学习输入和输出之间的残差(即差异),而不是直接映射关系。

  2. 残差块(Residual Blocks

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值