深度学习论文翻译 -- EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

最新推荐文章于 2024-09-09 09:11:17 发布

原创

最新推荐文章于 2024-09-09 09:11:17 发布 · 1.7k 阅读

标签

#EfficientNet中文 #图像分类 #EfficientNet-B7 #深度学习论文翻译 #深度学习

本文提出了一种新的复合缩放方法，通过统一地对深度、宽度和分辨率进行缩放，实现了更高效的卷积网络设计。该方法在EfficientNet模型上进行了验证，相比之前的模型，参数减少了8.4倍，推理速度提高了6.4倍。

本文翻译论文为深度学习分类论文：EfficientNet
论文链接：https://arxiv.org/pdf/1905.11946.pdf
开源代码：https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet.

在这里插入图片描述

摘要：卷积网络通常在现有的硬件资源下开发，然后根据硬件资源的进展，将卷积网络扩展到更高的准确度。在论文中，我们系统的研究了模型的缩放，并且确定平衡网络深度，宽度以及输入分辨率能够得到更优的网络，进而得到更好的结果。基于这样的研究，通过使用高效的复合系数（compund coefficient）统一的对 Depth/Width/ Resolution进行缩放，证明了该方法在缩放MobileNets和ResNet模型上的有效性。

在这里插入图片描述

为了更进一步研究，我们使用神经网络搜索（neural architecture search, NAS）的方法获得新的基准模型，通过不同的缩放系数，得到模型族，称之为EfficientNets。与之前的模型相比，该模型获得更好的精度和效率。其中，EfficientNet-B7在ImageNet上获得84.3%的top-1准确度，并且模型缩小8.4x smaller以及推理速度增加6.4倍。EfficientNets在CIFAR-100（91.7%），Flowers（98.8%），以及其它三个数据集上获得非常好的迁移学习效果。

主要介绍本文提出新的模型，EfficientNet。创新点是对网络的三个维度（深度，宽度，和输入大小）进行统一的缩放，进而得到更好的结果。与之前最好的卷积网络相比，模型参数更少（8.4x smaller）和推理速度更快（6.1x faster）。

1. Introduction

在这里插入图片描述

一般情况下，缩放卷积网络是获得更好准确度的有效手段，也被广泛的采用。例如，ResNet-18到ResNet-200，仅仅是增加了更多的层。最近，通过将基准网络扩大四倍，GPipe在ImageNet获得84.3%的top-1准确度。但是卷积网络的扩展方式从来没有被好好理解，方法也各不相同。最常用的扩展方式是增加网络深度或者宽度。另外一个不是很常见的扩展方式是增大图像分辨率。在之前的工作中，通常是处理三个维度（depth/width/resolution）中的一个。尽管可以同时处理2-3个维度，但是任意的缩放需要大量人工调试，常常产生次优的精度和效率。

主要陈述了之前网络扩展的维度有限，没有同时考虑多个维度同时扩展。即使多个维度扩展，但是需要大量人工调试，也不一定得到最好的效果。

在这里插入图片描述

在本文中，我们研究和重新思考卷积网络的扩展方法。我们尤其关注一个核心的问题：是否有扩展更优卷积网络的设计准则？我们的实验研究发现，平衡网络的深度、宽度、和分类率至关重要。更让人惊讶的是，只需要常数比率，就可以维持三个维度的平衡，进而进行有效的网络扩展。基于上述的研究结果，我们提出一个简单而且有效的复合扩展方法（compound scaling method）。与之前任意扩展网络的操作不同，我们使用一组固定的缩放系数对三个维度进行扩展。比如，如果需要使用 $2^N$ 的计算资源，我们可以简单的提高深度（ $\alpha^N$ ），宽度（ $\beta^N$ ）和图像大小（ $\gamma^N$ ），这里 $\alpha,\beta,\gamma$ 是在最小的模型上搜索得到。图2 展示了我们缩放方法与传统方法的不同之处。

主要介绍了本文提出的复合缩放方法的可行性，以及有效性。对于网络的缩放设计，使用常数比率的缩放就可以达到较好的效果。

在这里插入图片描述

在这里插入图片描述
直观上，复合缩放方法是有意义的。如果输入图像变的更大，那么更多的网络层才能提高感受野，以及更多的通道才能获取更多细粒度特征。事实上前人的理论和研究结果表明，网络的深度和宽度存在一定的关系。但是据我们的研究，我们是第一个量化深度，宽度和分辨率三个维度的关系。

在这里插入图片描述

我们的模型缩放方法在MobileNets和ResNet上非常有效。值得注意的是，我们的方法非常依赖基准网络（baseline network）。为了进一步研究，我么使用神经网络搜索算法（NAS）得到新的基准网络。然后对其进行模型缩放，得到一系列网络，称之为EfficientNets。图1总结了ImageNet上各个模型的表现，EfficientNets明显高于其它卷积网络。与广泛使用的ResNet-50相比，EfficientNet-B4将top-1精度从76.3%提升到83.0%，并且计算量更少。除了ImageNet数据集，EfficientNets在其它数据集上（5-8个数据集）的迁移学习也表现良好。

在这里插入图片描述

2. Related Work

在这里插入图片描述

卷积网络的精度：自从AlexNet获得2012年ImageNet冠军，卷积网络变得更大，精度也变得更好。2014年的GooglNet精度为74.8%，参数为6.8M，2017年的获胜模型，SENet获得82.7%的精度，参数为145M。最近，GPipe极大提高了top-1精度，达到84.3%，参数量为557M，训练如此大的模型是非常困难的。通常需要特殊的训练流程，并且需要将模型分拆到不同的硬件。虽然这些模型仅仅是针对ImageNet设计，最近的研究表明，ImageNet上更好的模型通常在其它数据集上也同样表现良好，以及其它视觉任务，比如目标检测。尽管对于很多应用，更高的精度是很重要的，但是我们已经达到了硬件的极限，因此提高精度的同时也要兼顾效率。

在这里插入图片描述

卷积网络的效率：深度卷积网络往往是过度参数化的。通常需要对模型进行压缩，牺牲部分精度来换取效率的提升。随着智能手机越来越流行，通常需要手工设计高效的移动端网络，比如SqueezeNets，MobileNets，ShuffleNets。最近，NAS广泛用于设计高效的适合移动端的卷积网络，与经过手工设计和调试的移动端网络相比，显然更加有效。但是，如何将这样的技术应用于更大的模型，仍有很多不清晰的地方。本论文中，我们将研究高效、超级大、精度更高的卷积网络。为了达到这个目标，我们借助于模型缩放。

在这里插入图片描述

模型缩放：根据不同的资源限制，模型缩放的方式有很多，比如，通过调整网络的深度，ResNet可以缩放为18层到200层。WideResNet和MobileNets调整宽度（channels）。通常，更大的图像在提升精度的同时，也会带来更多的计算量。前人的研究结果表明，网络的深度和宽度有助于提升网络的表达能力，但是如何进行缩放，进而获得更高的精度和效率，仍是开放的问题。本文将着重研究如何对三个维度进行缩放。

3. Compound Model Scaling

在这里插入图片描述

在这一部分，我们将缩放问题公式化，研究不同的方法，并且提出新的缩放方法。

3.1 Problem Formulation

一层卷积 $i$ 可以定义为一个函数： $Y_i=\mathcal{F_i}(X_i)$ ， $\mathcal{F_i}$ 是一个操作（operator）， $Y_i$ 是输出的tensor， $X_i$ 是输入tensor，形状为 $H_i,W_i,C_i>$ ， $H_i，W_i$ 是空间维度， $C_i$ 是通道维度。一个卷积网络 $\mathcal{N}$ 可以表达为一系列复合层： $\mathcal{N}=\mathcal{F_k\bigodot...\bigodot\mathcal{F_2}\bigodot\mathcal{F_1}(X_1)}=\bigodot_{j=1...k}\mathcal{F_i}(X_1)$

最低0.47元/天解锁文章