这篇是韩松大神的代表作,是ICLR2016年的best paper,值得好好读一下。
其实这篇论文本质上是《Learning both Weights and Connections for Efficient Neural Networks》的极致扩展,是在这篇论文基础上继续压缩模型,建议先看下该篇论文的讲解。
Introduction
论文首先从存储大小和能量消耗的角度表明现有大模型的缺点,然后引出论文的目标:降低网络模型的存储和能量消耗使得这些模型能更好地部署到移动端。所以论文提出了Deep Compression,包括三个步骤,如下图:

首先,对网络进行剪枝并且保留剪枝前的精度;然后,对权重进行量化,使得多个连接能共享同一个权重,从而可以使用更加有效的存储方式;最后,使用霍夫曼编码(Huffman coding)压缩权重。
网络剪枝
这里的网络剪枝是完全按照《Learning both Weights and Connections for Efficient Ne

《Deep compression》论文详细介绍了如何通过网络剪枝、量化训练和权重共享以及霍夫曼编码来压缩深度神经网络。论文首先阐述了大模型的存储和能耗问题,然后提出包括剪枝、量化和编码的深度压缩方法。网络剪枝减少了模型参数,量化训练和权重共享进一步压缩模型,最后采用霍夫曼编码提高压缩效率。实验结果显示,该方法能显著降低模型大小而不牺牲精度。

3668

被折叠的 条评论
为什么被折叠?



