《AI系统周刊》第4期：DNN模型压缩之剪枝(Pruning)

转载于 2021-08-02 18:25:58 发布 · 2.2k 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：http://forms.baai.ac.cn/f/clC1l5

标签

#网络 #算法 #计算机视觉 #机器学习 #人工智能

智源社区AI系统兴趣组整理第4期《AI系统周刊》，涵盖模型加速、智能体系架构与芯片等内容。周刊推荐多篇论文，聚焦初始模型剪枝、结构化稀疏学习等方法，还汇总模型压缩综述文章和GitHub Repo资源，欢迎加入交流群。

No.04

智源社区

AI系统组

系

统

研究

观点

资源

活动

关于周刊

AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一，为了帮助研究与工程人员了解这一领域的进展和资讯，我们“AI系统”兴趣组整理了第4期《AI系统周刊》，从论文推荐、学术资源等几个维度推荐近期 AI系统领域值得关注的信息，内容主要包括模型加速、智能体系架构与芯片以及软硬件系统。周刊采用社区协作的模式产生，欢迎感兴趣的朋友们加入我们，一同推动AI系统社群学习与交流。扫描文末二维码申请加入智源社区AI系统研究组。

本期贡献者：ghwang, Juli, 王兴宾, 梁伟强, Huan

论文推荐

标题: 牛津大学 | 鲁棒的初始模型剪枝 (Robust Pruning at Initialization) 了解详情

简介: 当前的初始模型剪枝方法效果仍然不能令人满意, 一个主要问题是, 当前的初始模型剪枝方法对网络的每一层的剪枝率是自动分配的, 算法无法保证不会把某一层完全剪掉 (即剪枝率是100%). 一旦完全剪掉, 网络就彻底没用了. 在本文中, 作者首先对两种常见的初始模型剪枝范式 (基于幅值的和基于梯度的)进行了详细的理论分析, 据此提出了新的理论更完备的剪枝方法 (SBP-SR), 在实验上效果也比之前的方发更好。

论文地址:

https://arxiv.org/abs/2002.08797

标题: 麻省理工学院等 | 初始模型剪枝: 为什么当前的方法总是偏离目标? (Pruning Neural Networks at Initialization: Why Are We Missing the Mark?) 了解详情

简介: 神经网络剪枝(pruning)是模型压缩的重要方法, 但是其缺点之一是需要一个预训练好的模型作为基础. 为了解决这个问题, 最近兴起一股新的剪枝范式, 对随机初始化的模型进行剪枝 (Pruning at Initialization, PaI), 在这里简称为"初始模型剪枝"。本文是对当前的几种流行的PaI方法进行分析, 并对他们的有效性提出质疑。

论文地址:

http://arxiv.org/abs/2009.08576

标题: 匹兹堡大学 | DNN中学习结构化稀疏性（Learning Structured Sparsity in Deep Neural Networks）

了解详情

简介: 为了应对资源受限设备中部署大规模深度神经网络 (DNN)的诸多挑战。在论文中，作者提出了一种结构化稀疏学习 (SSL) 方法通过拆分 w(g) 组来“规范化” DNN 的结构（即过滤器、通道、滤波器形状和网络层深度）。实现从更大的 DNN 中学习紧凑的结构以降低计算成本；获得硬件友好的 DNN 结构化稀疏性；调整DNN结构，提高分类精度等目的。

论文地址：https://arxiv.org/pdf/1608.03665

标题: 阿姆斯特丹大学 & OpenAI | 通过 L0 正则化学习稀疏神经网络（Learning Sparse Neural Networks through L0 regularization）了解详情

简介：由于L0范数不可微，文章提出了使用连续分布平滑期望L0正则化替代普通L0正则化的通用框架。利用hard-sigmoid和连续随机变量（r.v.s）来平滑组合问题，并提出了一种新颖的hard concrete分布，反过来更好地模仿了伯努利分布的二元性质。这种方式可以保持参数中的精确零同时仍然允许基于梯度的高效优化，大大加快训练和推理的速度同时提高泛化能力。

论文地址：https://arxiv.org/abs/1712.01312

标题: 韩国科学技术院 | 用于基于幅值的层自适应稀疏化剪枝(Layer-adaptive sparsity for the Magnitude-based Pruning) 了解详情

简介: 研究表明，分层稀疏压缩过程中简单的基于幅值的剪枝可实现稀疏性和性能之间的最先进的权衡，但通常需要通过手工启发式或广泛的超参数搜索。为此，文章提出了基于层自适应幅度的剪枝（LAMP）分数，该分数包含了由剪枝引起的模型级L2 失真，并且不需要任何超参数调整或大量计算。在广泛的模型和数据集上以及与其他剪枝技术结合的大量实验中，LAMP 始终优于现有流行的分层稀疏选择方案。

论文地址：https://arxiv.org/abs/2010.07611

标题: 厦门大学等 | 使用高秩特征映射进行剪枝 (HRank: Filter Pruning using High-Rank Feature Map) 了解详情

简介：为了解决剪枝设计中存在训练效率低、人工成本高的问题，本文通过对高秩特征图的研究，提出了一种新的滤波剪枝方法。文章指出无论网络接收的图像批数是多少，由单个卷积核生成的多个特征图的平均秩总是相同的。此外，在数学上证明了低秩特征图包含的信息较少，剪去这部分卷积核影响较小，因此可以首先删除生成这些特征映射的卷积核，该方法表现SOTA。

论文地址：

https://openaccess.thecvf.com

标题: CMU & 微软 & UT Austin | 通过可学习的全局秩实现高效模型压缩(Towards Effificient Model Compression via Learned Global Ranking)了解详情

简介：剪枝卷积滤波器已经证明了它在网络压缩中的有效性，但通过剪枝在精度和速度之间进行权衡，需要不断试错才能完成，这可能会非常耗时。本文改变了传统剪枝算法的优化目标，产生一组具有不同精度和速度权衡的网络，而非生成一个针对预定义速度约束的网络。为此，文章提出学习网络不同层的卷积核的全局秩，通过剪去低秩卷积核，获得一组具有不同精度/速度权衡的网络。

论文地址：https://arxiv.org/pdf/1904.12368.pdf

标题：港科 & 华为诺亚 | 使用NAS、剪枝、动态蒸馏升级检测器(Joint-DetNAS: Upgrade Your Detector with NAS, Pruning and Dynamic Distillation ) 了解详情

简介：本文将NAS、剪枝、动态蒸馏有机结合，提出一个用于目标检测的NAS框架，该算法主要包括两个核心进程：学生态射（student morphism）是对学生的结构进行优化，去除冗余参数，而动态蒸馏(dynamic distillation)则是寻找最优的匹配教师网络。实验显示，以经典的 R101-FPN 作为基础检测器，Joint-DetNAS 在 MS COCO 上能够将其 mAP 从 41.4 提高到 43.9，并将延迟降低47% ，这与 SOTA EfficientDet 相当，而搜索成本更低。

论文地址：https://arxiv.org/abs/2105.12971

标题: 普林斯顿大学 & 哥伦比亚大学 | HYDRA: 剪枝对抗鲁棒的神经网络 (HYDRA: Pruning Adversarially Robust Neural Networks) 了解详情

简介: 目前研究界已经广泛地探索鲁棒训练和网络剪枝相结合的思路来同时解决网络过参和鲁棒性不强的问题。然而，这些研究成果是通过启发式剪枝策略对正常的训练进行开发的，而直接进行对抗训练的整合会使得其训练模型的性能降低。为了克服这一挑战，该文章利用剪枝技术来感知鲁棒性训练的目标，然后让训练目标来指导神经元连接的搜索进行剪枝。作者把该方法命名为HYDRA，它同时实现了最好的原始目标准确率和较高鲁棒性的准确率的压缩网络。

论文地址: https://www.cs.columbia.edu/~tcwangshiqi/docs/hydra.pdf

学术资源

模型压缩综述文章汇总了解详情

简介：模型压缩 (model compression)大体上可以分为5个子领域: (1) 剪枝 (2) 量化 (包括二值网络) (3) 矩阵低秩分解 (4) 知识蒸馏 (5) 紧凑结构设计或搜索. 这些领域侧重于算法上的改进, 与之配套的还有偏硬件, 系统方向的优化, 如基于compiler的软硬件协同设计. AI系统兴趣组对这些领域做了详尽的综述文章整理。

模型压缩GitHub Repo资源汇总了解详情

简介：除了以上综述文章, 在GitHub上也有很多模型压缩的相关的repository. 这些repo大多侧重于模型压缩的一个或几个方向, 整理了这些方向上的文章, 资讯, 工具等. AI系统兴趣组也做了详尽的整理如下, 供读者参考。