AIGC底层技术之大模型量化分析


论文地址:​
How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study
​​https://arxiv.org/abs/2404.14047​​​

前言结论​

  1. 几乎所有量化方式在8bit 量化无损失​
  2. GPTQ 和 AWQ 4bit量化对8B模型来说有1-2%的性能损失,对70B模型只有0.4%性能损失。​
  3. 参数越大的模型,低bit量化损失越低。​
  4. 综合来说,如果追求无任何性能损失,8B模型用8bit量化,70B模型用4bit量化;如果能接受2-3%损失,8B模型用4bit量化,70B模型用3bit量化。​

概述​

这篇论文旨在评估LLAMA3模型在低比特量化(1-8位)下的性能表现,特别是在资源受限的环境中。通过对现有的后训练量化(PTQ)和LoRA微调量化(LoRA-FT)方法进行全面评估,研究其在LLAMA3模型上的适用性及其性能衰减问题。期望通过这项研究为未来开发更高效的低比特量化方法提供参考。​

新颖性​

论文的新颖性体现在以下几个方面:​

  1. LLAMA3模型的首次全面量化评估:尽管LLAMA3模型已经展示了卓越的性能,但其在低比特量化条件下的表现尚未得到充分研究。​
  2. 多种量化方法和广泛的数据集:本文选择了10种现有的量化方法,并使用了多个数据集来进行实验,涵盖从1位到8位的量化范围,提供了全面的性能评估。​
  3. 揭示量化带来的性能挑战:研究揭示了LLAMA3在超低比特量化条件下的显著性能衰减问题,指出了未来改进的方向。​

量化和反量化​

量化是将高精度数字转换为低精度数字,以减少存储和计算资源。具体步骤如下:​

  1. 确定范围:确定FP16格式的权重范围,例如0.871。​
  2. 计算比例因子(Scale):使用int8的范围乘以比例因子,以覆盖FP16的范围。​
  3. 应用量化公式:将FP16格式的数据乘以比例因子并四舍五入转换为int8格式。​

反量化是将量化后的数据恢复到高精度格式。步骤包括:​

应用反量化公式:使用比例因子将量化数据还原。​
注意误差:反量化可能导致数据不完全准确。​

常见量化方式​

1. GPT-Q:GPT模型的训练后量化​

GPTQ 是一种用于4位量化的训练后量化 (PTQ) 方法,旨在优化GPU推理和性能。其核心思想是通过将所有权重压缩到4位量化中来最小化均方误差,并在推理过程中动态地将权重解量化为float16。具体步骤包括缩放、四舍五入、限制范围和反缩放。​
关键点:​

  1. 能在四个GPU小时内量化1750亿参数的GPT模型,将位宽减少到3或4位,准确性几乎不受影响。​
  2. 这种方法的压缩增益是以前方法的两倍多,保持了准确性。​
  3. 可以用于端到端推断加速,相对于FP16,使用高端GPU(NVIDIA A100)时约为3.25倍,使用NVIDIA A6000时为4.5倍。​
  4. 是第一个表明可以将数百亿参数的模型量化为每个组件3-4位的方法。​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江小皮不皮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值