Wide Residual Networks论文记录

最新推荐文章于 2025-07-05 01:00:00 发布

原创

最新推荐文章于 2025-07-05 01:00:00 发布 · 770 阅读

本文深入探讨了Wide Residual Networks（WRN）的结构与实验结果，指出通过增加网络宽度而非深度，可以提升模型性能，同时保持较低的参数量和训练时间。WRN在CIFAR和ImageNet上的表现优于极端深的ResNet，揭示了残差块的重要性，并提出BN-ReLU-Conv的顺序能加速训练并提高准确率。

简介

随着深度神经网络的不断发展，网络的层数也在不断加深，每提高一个百分点精度是一小部分都要花费几乎两倍的层数，较深层的网络模型中只有部分模块具有很好的表征能力，非常深的剩余网络会减少特征重用，使得网络训练的特别慢。所以对ResNet块进行了研究，提出了减小残差网络的深度，增大残差网络的宽度的新结构（WRN宽剩余网络）。深度网络具有优越性，然而会在训练中存在一些看你，比如爆炸/梯度消失和退化。后续工作表明剩余链路加快了深度网络的收敛速度。残差网络和公路网络的本质区别就是，后者的残差链路是门控的，并且知道这些门的权值，目前剩余网络研究主要集中在ResNet块内的激活顺序和剩余网络的深度，本文试图进行一个超越以上几点的实验研究。

网络结构

在这里插入图片描述
上图(a)是ResNet的残差块结构，(b)是RresNet提出的bottleneck结构，用于更深的层。©是本文作者采用的宽残差块结构，通过增加输出通道的数量使模型变得wider。(d)在两层卷积中加入了dropout。
有三种方法可以增加剩余块的表示能力：
（1）为每个块添加更多的卷积层。
（2）通过添加更多的特征面来加宽卷积层。
（3）增加卷积层滤波器的大小。
作者认为3*3的卷积核十分有效，就不来更换。作者尝试增加宽度来实验。
在这里插入图片描述
我们看上图可以发现B(3,1,3)在深度最浅，参数量最小的前提下，CIFAR-10的分类准确率是最高的。但是作者的目的是为了研究宽度，所以没有对这部分进行详细阐述。

最低0.47元/天解锁文章