论文地址:
How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study
https://arxiv.org/abs/2404.14047
前言结论
- 几乎所有量化方式在8bit 量化无损失
- GPTQ 和 AWQ 4bit量化对8B模型来说有1-2%的性能损失,对70B模型只有0.4%性能损失。
- 参数越大的模型,低bit量化损失越低。
- 综合来说,如果追求无任何性能损失,8B模型用8bit量化,70B模型用4bit量化;如果能接受2-3%损失,8B模型用4bit量化,70B模型用3bit量化。
概述
这篇论文旨在评估LLAMA3模型在低比特量化(1-8位)下的性能表现,特别是在资源受限的环境中。通过对现有的后训练量化(PTQ)和LoRA微调量化(LoRA-FT)方法进行全面评估,研究其在LLAMA3模型上的适用性及其性能衰减问题。期望通过这项研究为未来开发更高效的低比特量化方法提供参考。
新颖性
论文的新颖性体现在以下几个方面:
- LLAMA3模型的首次全面量化评估:尽管LLAMA3模型已经展示了卓越的性能,但其在低比特量化条件下的表现尚未得到充分研究。
- 多种量化方法和广泛的数据集:本文选择了10种现有的量化方法,并使用了多个数据集来进行实验,涵盖从1位到8位的量化范围,提供了全面的性能评估。
- 揭示量化带来的性能挑战:研究揭示了LLAMA3在超低比特量化条件下的显著性能衰减问题,指出了未来改进的方向。
量化和反量化
量化是将高精度数字转换为低精度数字,以减少存储和计算资源。具体步骤如下:
- 确定范围:确定FP16格式的权重范围,例如0.871。
- 计算比例因子(Scale):使用int8的范围乘以比例因子,以覆盖FP16的范围。
- 应用量化公式:将FP16格式的数据乘以比例因子并四舍五入转换为int8格式。
反量化是将量化后的数据恢复到高精度格式。步骤包括:
应用反量化公式:使用比例因子将量化数据还原。
注意误差:反量化可能导致数据不完全准确。
常见量化方式
1. GPT-Q:GPT模型的训练后量化
GPTQ 是一种用于4位量化的训练后量化 (PTQ) 方法,旨在优化GPU推理和性能。其核心思想是通过将所有权重压缩到4位量化中来最小化均方误差,并在推理过程中动态地将权重解量化为float16。具体步骤包括缩放、四舍五入、限制范围和反缩放。
关键点:
- 能在四个GPU小时内量化1750亿参数的GPT模型,将位宽减少到3或4位,准确性几乎不受影响。
- 这种方法的压缩增益是以前方法的两倍多,保持了准确性。
- 可以用于端到端推断加速,相对于FP16,使用高端GPU(NVIDIA A100)时约为3.25倍,使用NVIDIA A6000时为4.5倍。
- 是第一个表明可以将数百亿参数的模型量化为每个组件3-4位的方法。



被折叠的 条评论
为什么被折叠?



