深度学习论文翻译 -- EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

本文提出了一种新的复合缩放方法,通过统一地对深度、宽度和分辨率进行缩放,实现了更高效的卷积网络设计。该方法在EfficientNet模型上进行了验证,相比之前的模型,参数减少了8.4倍,推理速度提高了6.4倍。

本文翻译论文为深度学习分类论文:EfficientNet
论文链接:https://arxiv.org/pdf/1905.11946.pdf
开源代码:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet.


在这里插入图片描述

摘要:卷积网络通常在现有的硬件资源下开发,然后根据硬件资源的进展,将卷积网络扩展到更高的准确度。在论文中,我们系统的研究了模型的缩放,并且确定平衡网络深度,宽度以及输入分辨率能够得到更优的网络,进而得到更好的结果。基于这样的研究,通过使用高效的复合系数(compund coefficient)统一的对 Depth/Width/ Resolution进行缩放,证明了该方法在缩放MobileNets和ResNet模型上的有效性。

在这里插入图片描述

  为了更进一步研究,我们使用神经网络搜索(neural architecture search, NAS)的方法获得新的基准模型,通过不同的缩放系数,得到模型族,称之为EfficientNets。与之前的模型相比,该模型获得更好的精度和效率。其中,EfficientNet-B7在ImageNet上获得84.3%的top-1准确度,并且模型缩小8.4x smaller以及推理速度增加6.4倍。EfficientNets在CIFAR-100(91.7%),Flowers(98.8%),以及其它三个数据集上获得非常好的迁移学习效果。

主要介绍本文提出新的模型,EfficientNet。创新点是对网络的三个维度(深度,宽度,和输入大小)进行统一的缩放,进而得到更好的结果。与之前最好的卷积网络相比,模型参数更少(8.4x smaller)和推理速度更快(6.1x faster)。

1. Introduction

在这里插入图片描述在这里插入图片描述

一般情况下,缩放卷积网络是获得更好准确度的有效手段,也被广泛的采用。例如,ResNet-18到ResNet-200,仅仅是增加了更多的层。最近,通过将基准网络扩大四倍,GPipe在ImageNet获得84.3%的top-1准确度。但是卷积网络的扩展方式从来没有被好好理解,方法也各不相同。最常用的扩展方式是增加网络深度或者宽度。另外一个不是很常见的扩展方式是增大图像分辨率。在之前的工作中,通常是处理三个维度(depth/width/resolution)中的一个。尽管可以同时处理2-3个维度,但是任意的缩放需要大量人工调试,常常产生次优的精度和效率。

主要陈述了之前网络扩展的维度有限,没有同时考虑多个维度同时扩展。即使多个维度扩展,但是需要大量人工调试,也不一定得到最好的效果。

在这里插入图片描述在这里插入图片描述

在本文中,我们研究和重新思考卷积网络的扩展方法。我们尤其关注一个核心的问题:是否有扩展更优卷积网络的设计准则?我们的实验研究发现,平衡网络的深度、宽度、和分类率至关重要。更让人惊讶的是,只需要常数比率,就可以维持三个维度的平衡,进而进行有效的网络扩展。基于上述的研究结果,我们提出一个简单而且有效的复合扩展方法(compound scaling method)。与之前任意扩展网络的操作不同,我们使用一组固定的缩放系数对三个维度进行扩展。比如,如果需要使用 2 N 2^N 2N的计算资源,我们可以简单的提高深度( α N \alpha^N αN),宽度( β N \beta^N βN)和图像大小( γ N \gamma^N γN),这里 α , β , γ \alpha,\beta,\gamma α,β,γ是在最小的模型上搜索得到。图2 展示了我们缩放方法与传统方法的不同之处。

主要介绍了本文提出的复合缩放方法的可行性,以及有效性。对于网络的缩放设计,使用常数比率的缩放就可以达到较好的效果。

在这里插入图片描述

在这里插入图片描述
直观上,复合缩放方法是有意义的。如果输入图像变的更大,那么更多的网络层才能提高感受野,以及更多的通道才能获取更多细粒度特征。事实上前人的理论和研究结果表明,网络的深度和宽度存在一定的关系。但是据我们的研究,我们是第一个量化深度,宽度和分辨率三个维度的关系。

在这里插入图片描述

我们的模型缩放方法在MobileNetsResNet上非常有效。值得注意的是,我们的方法非常依赖基准网络(baseline network)。为了进一步研究,我么使用神经网络搜索算法(NAS)得到新的基准网络。然后对其进行模型缩放,得到一系列网络,称之为EfficientNets。图1总结了ImageNet上各个模型的表现,EfficientNets明显高于其它卷积网络。与广泛使用的ResNet-50相比,EfficientNet-B4将top-1精度从76.3%提升到83.0%,并且计算量更少。除了ImageNet数据集,EfficientNets在其它数据集上(5-8个数据集)的迁移学习也表现良好。

在这里插入图片描述

2. Related Work

在这里插入图片描述

卷积网络的精度:自从AlexNet获得2012年ImageNet冠军,卷积网络变得更大,精度也变得更好。2014年的GooglNet精度为74.8%,参数为6.8M,2017年的获胜模型,SENet获得82.7%的精度,参数为145M。最近,GPipe极大提高了top-1精度,达到84.3%,参数量为557M,训练如此大的模型是非常困难的。通常需要特殊的训练流程,并且需要将模型分拆到不同的硬件。虽然这些模型仅仅是针对ImageNet设计,最近的研究表明,ImageNet上更好的模型通常在其它数据集上也同样表现良好,以及其它视觉任务,比如目标检测。尽管对于很多应用,更高的精度是很重要的,但是我们已经达到了硬件的极限,因此提高精度的同时也要兼顾效率。

在这里插入图片描述在这里插入图片描述

卷积网络的效率:深度卷积网络往往是过度参数化的。通常需要对模型进行压缩,牺牲部分精度来换取效率的提升。随着智能手机越来越流行,通常需要手工设计高效的移动端网络,比如SqueezeNets,MobileNets,ShuffleNets。最近,NAS广泛用于设计高效的适合移动端的卷积网络,与经过手工设计和调试的移动端网络相比,显然更加有效。但是,如何将这样的技术应用于更大的模型,仍有很多不清晰的地方。本论文中,我们将研究高效、超级大、精度更高的卷积网络。为了达到这个目标,我们借助于模型缩放。

在这里插入图片描述

模型缩放:根据不同的资源限制,模型缩放的方式有很多,比如,通过调整网络的深度,ResNet可以缩放为18层到200层。WideResNet和MobileNets调整宽度(channels)。通常,更大的图像在提升精度的同时,也会带来更多的计算量。前人的研究结果表明,网络的深度和宽度有助于提升网络的表达能力,但是如何进行缩放,进而获得更高的精度和效率,仍是开放的问题。本文将着重研究如何对三个维度进行缩放。

3. Compound Model Scaling

在这里插入图片描述在这里插入图片描述

在这一部分,我们将缩放问题公式化,研究不同的方法,并且提出新的缩放方法。

3.1 Problem Formulation

一层卷积 i i i可以定义为一个函数: Y i = F i ( X i ) Y_i=\mathcal{F_i}(X_i) Yi=Fi(Xi) F i \mathcal{F_i} Fi是一个操作(operator), Y i Y_i Yi是输出的tensor, X i X_i Xi是输入tensor,形状为 < H i , W i , C i > <H_i,W_i,C_i> <Hi,Wi,Ci> H i , W i H_i,W_i HiWi是空间维度, C i C_i Ci是通道维度。一个卷积网络 N \mathcal{N} N可以表达为一系列复合层: N = F k ⨀ . . . ⨀ F 2 ⨀ F 1 ( X 1 ) = ⨀ j = 1... k F i ( X 1 ) \mathcal{N}=\mathcal{F_k\bigodot...\bigodot\mathcal{F_2}\bigodot\mathcal{F_1}(X_1)}=\bigodot_{j=1...k}\mathcal{F_i}(X_1) N=F

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值