Wide Residual Networks论文记录

本文深入探讨了Wide Residual Networks(WRN)的结构与实验结果,指出通过增加网络宽度而非深度,可以提升模型性能,同时保持较低的参数量和训练时间。WRN在CIFAR和ImageNet上的表现优于极端深的ResNet,揭示了残差块的重要性,并提出BN-ReLU-Conv的顺序能加速训练并提高准确率。

简介

随着深度神经网络的不断发展,网络的层数也在不断加深,每提高一个百分点精度是一小部分都要花费几乎两倍的层数,较深层的网络模型中只有部分模块具有很好的表征能力,非常深的剩余网络会减少特征重用,使得网络训练的特别慢。所以对ResNet块进行了研究,提出了减小残差网络的深度,增大残差网络的宽度的新结构(WRN宽剩余网络)。深度网络具有优越性,然而会在训练中存在一些看你,比如爆炸/梯度消失和退化。后续工作表明剩余链路加快了深度网络的收敛速度。残差网络和公路网络的本质区别就是,后者的残差链路是门控的,并且知道这些门的权值,目前剩余网络研究主要集中在ResNet块内的激活顺序和剩余网络的深度,本文试图进行一个超越以上几点的实验研究。

网络结构

在这里插入图片描述
上图(a)是ResNet的残差块结构,(b)是RresNet提出的bottleneck结构,用于更深的层。©是本文作者采用的宽残差块结构,通过增加输出通道的数量使模型变得wider。(d)在两层卷积中加入了dropout。
有三种方法可以增加剩余块的表示能力:
(1)为每个块添加更多的卷积层。
(2)通过添加更多的特征面来加宽卷积层。
(3)增加卷积层滤波器的大小。
作者认为3*3的卷积核十分有效,就不来更换。作者尝试增加宽度来实验。
在这里插入图片描述
我们看上图可以发现B(3,1,3)在深度最浅,参数量最小的前提下,CIFAR-10的分类准确率是最高的。但是作者的目的是为了研究宽度,所以没有对这部分进行详细阐述。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值