神经网络量化（2）量化方法

最新推荐文章于 2025-01-22 19:12:42 发布

原创最新推荐文章于 2025-01-22 19:12:42 发布 · 1k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#qt #开发语言

收录于

文章介绍了三种量化方法：对称量化通过对称结构保持数值平衡，非对称量化允许数据在非零区域转换，而移位量化适合不支持浮点运算的设备。对于Tensor的量化，可以全局使用一个scale和offset，但可能导致数据失真，或者分通道使用多个scale和offset以提高精度。

三种量化思路：

1. 对称量化：

float value=1.0;
float scale=0.1;
int qt32=round(value/scale);
chat qt8=clip(qt32,qt_min,qt_max);

//因为最后结果关于0呈现对称结构，所以称为对称量化

2. 非对称量化：

float value=1.0;
float scale=0.1;
int qt32=round(value/scale+offset);
chat qt8=clip(qt32,qt_min,qt_max);
//因为offset的存在，我们可以将value转换到非零区域，所以qt_min为0，即不对称

3. 移位量化：

float value=1.0;
float scale=0.1;
int qt32=round(value<<offset);
chat qt8=clip(qt32,0,qt_max);
//因为有些设备不能进行浮点运算，所以，我们通过一维将value转为整数。这叫移位量化

对于Tensor的两种量化思路：

1. Tensor整体使用一个scale和offset：会出现有些数据严重失真

2. Tensor分通道使用多个scale和offset：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

迷途小牛马

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

一切皆是映射：边缘计算中的轻量化神经网络部署

东海陈光剑的博客：禅与计算机程序设计艺术

08-11

831

1. 背景介绍 1.1 边缘计算的崛起近年来，随着物联网、5G 等技术的快速发展，海量数据在网络边缘产生，对实时性、安全性、隐私性提出了更高的要求。传统的云计算模式由于网络延迟、带宽限制等问题，难以满足这些需求。边缘计算应运而生，它将计算和数据存储能力从云端扩展到网络边缘，更接近数据源，从而实现

参与评论您还未登录，请先登录后发表或查看评论

AI大模型的神经网络模型量化技术：INT8 还是 INT4 ？

东海陈光剑的博客：禅与计算机程序设计艺术

06-15

1万+

如果要量化的目的是实现硬件加速，则应首选确定性量化，因为可以预先指定适当的量化级别，以便在专用硬件上运行量化网络，对硬件的性能预期得到改善。QAT量化方法在付出重新训练的代价后，采用INT4的量化模型应用场合会较大，但稳定性还是需要大量的实验验证，尤其是安全性要求很高的自动驾驶领域，大家不得不慎重考虑。但是，DNN模型的每一层对准确性都有不同的影响，因此可以使用细粒度的混合精度量化方法，其中每层权重和激活值的位宽不同。而随机性量化，其权重、激活值或梯度是离散分布的，而量化值是从这些离散分布中采样而来。

对称量化VS非对称量化

qq_36936443的博客

07-29

5175

非对称量化相比于对称量化而言，无需遵循0不变的映射规则，显然具有更好的动态映射范围，并且当面临一些特殊情况，如对于经过relu的激活值（全为非负值），使用对称量化时，需要仔细考虑使用符号量化，还是无符号量化。可以看到，后两项都是常量，可以提前离线计算好，但额外多出的第二项相比于对称量化而言，非对称量化有着较大的额外计算开销。综合以上分析，硬件支持的前提下，量化时对激活值X使用非对称量化，对权重值W使用对称量化，或许是一种更适宜的量化方案。其中r为量化前数值，S为缩放因子，q为量化后数值，Z表示零点。...

深度神经网络量化算法基础理论

Joejwu的博客

07-03

859

参考之前博客中的量化分级，本文将主要关注Level3的量化方法，即通过在训练过程中模拟量化，来尽可能地降低由量化带来的精度损失，其属于量化感知训练一类，本小节将介绍的即为量化感知训练方法的一些基础理论。最后从量化粒度的角度，可将量化分为逐通道量化与逐层量化，例如在卷积层中，同一层的每个卷积核(Filter)拥有独立的量化参数则为逐通道量化，若每个卷积核共享同一组量化参数，则为逐层量化。为便于理解，下面将通过[67][158]中的量化方案来阐述相关概念，其中非对称量化的计算如式2.6中所示。

神经网络量化入门--Add和Concat

AI小男孩的专栏

03-14

2540

神经网络量化入门系列第六篇：Add和Concat的量化

移位量化（对数量化）

hey-yahei

03-08

5181

原文链接：https://www.yuque.com/yahei/hey-yahei/shift_quantization 移位量化也可以称为对数量化，将数值从浮点数的形式量化为一个整数或定点数，但它与线性量化不同，两个相邻数之间是在以2为底的对数域上均匀分布的，这使得实际推理当中可以直接通过移位运算来快速实现，同时也拥有随比特数增长而指数增长的大动态范围。移位量化既可以只量化权重（对激活值移位）...

Pytorch模型量化

热门推荐

凌逆战的博客

10-25

1万+

在深度学习中，量化指的是使用更少的bit来存储原本以浮点数存储的tensor，以及使用更少的bit来完成原本以浮点数完成的计算。这么做的好处主要有如下几点：更少的模型体积，接近4倍的减少；可以更快的计算，由于更少的内存访问和更快的int8计算，可以快2~4倍。一个量化后的模型，其部分或者全部的tensor操作会使用int类型来计算，而不是使用量化之前的float类型。当然，量化还需要底...

神经网络量化硬件实现

charles_zhang_的博客

01-18

795

各种算子的硬件量化

HAWQ-V2：基于Hessian迹的混合比特量化策略

u012347027的博客

12-06

2205

HAWQ-V2：基于Hessian迹的混合比特量化策略摘要方法自动化的位宽选择Hutchinson快速求解Hessian迹敏感度指标分析激活的混合精度量化实验结果ResNet50 on ImageNetInception-V3 on ImageNetSqueezeNext on ImageNetRetinaNet-ResNet50 on COCO消融实验本文为 UC Berkeley 大学发表在 NeurIPS 2020 上的混合精度量化论文，是之前 HAWQ 论文的升级版本。论文题目：HAWQ-

神经网络的量化与训练(论文翻译讲解)

qq_45469266的博客

08-16

931

谷歌出品量化方案

用神经网络实现一次加法运算

staple

06-24

1011

按照移动距离和假设，如果两张图片不重合点的数量分别是a和b，则网络收敛的迭代次数反比与a+b，也就是网络的迭代次数是a+b的函数n=f（a+b）。因此对二值化图片实现一次收敛，就相当于完成了一次加法运算。...

【科研小小白】神经网络参数（weight权重、bias偏移量）初始化方法（未完待续）

imblackcat的博客

08-03

1977

在神经网络中，参数的初始化和处理是非常重要的步骤，因为它们对模型的训练速度和性能有着直接的影响。：权重的初始化通常需要遵循一些特定的分布，如均匀分布、正态分布或者是特定的常数。：权重归一化是一种常用的参数处理方法，可以帮助提高模型的训练速度和性能。：在神经网络的训练过程中，权重的更新是通过反向传播和优化算法来实现的。PyTorch的模块提供了一系列的优化算法，如SGD、Adam和RMSProp等。：权重正则化是一种防止过拟合的技术，常见的方法有L1正则化和L2正则化。在PyTorch中，可以在优化器中设置。

定点浮点 神经网络 量化_神经网络量化方法

weixin_39723920的博客

12-22

2467

神经网络虽然在多个领域取得了非常巨大的成就，但是其本质是大量参数的拟合和泛化，如果想处理更加复杂的任务，在没有过拟合的情况下，增加训练数据和加大网络规模无疑是简单有效的手段。现实情况就是这么做的，但是巨大的参数量和复杂的网络结构造成了两个主要的问题：模型体积和运算速度。这两个问题会带来诸如内存容量，内存存取带宽，移动端还有电量消耗等一系列问题，大大限制了神经网络的应用场景。背景介绍为了解决这些问题...

深度学习神经网络的数学基础（二）

qq_39220334的博客

03-22

1358

张量运算一、逐元素运算1.加法运算2.relu运算二、张量点积1.向量间的点积2.矩阵和向量间的点积3.矩阵间的点积三、张量变形四、广播1.加法运算2.maximum运算总结一、逐元素运算 **逐元素运算独立地应用于张量的每个元素。**为了更好地理解逐元素运算，下面给出relu运算和加法运算的逐元素实现，使用for循环。 1.加法运算 def naive_add(x,y): assert len(x.shape) == 2 #x,y是Numpy的2D张量 assert x.sha

定点数的移位计算

qq_47950355的博客

04-14

389

定点数的移位计算，408计组学习。

IDL批量处理---MOD04_L2

qq_44795935的博客

02-25

1296

PRO MOD04L2_preprocessing ;scale和 offset这两个存在的时候会在转换过程自动应用他们，所以处理的过程中出现找不到就是没有 COMPILE_OPT idl2 ENVI,/restore_base_save_files ENVI_BATCH_INIT inpath = 'F:\shiyan\MOD04_L2\';输入路径，注意L2后面斜杠不可少 CD,inpath filenames = FILE_SEARCH('*.hdf',COUNT=n)...

量化初探: 对称量化以及非对称量化

bobchen1017的博客

10-10

1778

量化（Quantization）是指将高精度浮点数表示为低精度整数的过程，从而提高神经网络的效率和性能。减小内存占用模型大小减少：通过量化，我们可以将32位浮点数转换为较低位宽的数（例如8位整数）。这可以显著减少模型的大小，使其更容易在内存受限的设备上部署。减少带宽需求：模型大小的减少也意味着在下载或传输模型时需要的带宽减少。加速计算特定硬件加速：很多硬件（例如Jetson）对低位宽的操作更有优势，因此量化模型可以更好地利用这些硬件特性。并行化：低位运算可以允许更高的并行度，从而进一步加速计算。

【AI系统】训练后量化与部署

ZOMI酱

12-07

1017

本文将会重点介绍训练后量化技术的两种方式：动态和静态方法，将模型权重和激活从浮点数转换为整数，以减少模型大小和加速推理。并以 KL 散度作为例子讲解校准方法和量化粒度控制来平衡模型精度和性能。

【寒武纪（5）】基于MLU的2D图像算法加速CNCV；基于MLU的AI计算库CNNL、编程模型、定点量化、算子融合；基于MLU的AI操作融合算子CNNL_Extra

AbiUni（YY熊）

11-15

1918

CNCV 结合寒武纪的硬件架构特点，使CV 算子达到最佳性能，并减少内存占用。

高通SNPE SDK模型量化(三)

神经网络量化（2） 量化方法

神经网络量化（2）量化方法