AIGC底层技术之大模型量化分析

原创

已于 2024-07-18 18:04:18 修改 · 2.1k 阅读

·

11

·

标签

#LLM #GPTQ #AWQ #GGUF #LLAMA3

于 2024-07-15 10:55:03 首次发布

大模型不同量化方案分析

前言结论
概述
新颖性
量化和反量化
常见量化方式
实验设计
实验结果
- 后训练量化（PTQ）
- LoRA微调量化（LoRA-FT）

论文地址：
How Good Are Low-bit Quantized LLAMA3 Models? An Empirical Study
https://arxiv.org/abs/2404.14047

前言结论

几乎所有量化方式在8bit 量化无损失
GPTQ 和 AWQ 4bit量化对8B模型来说有1-2%的性能损失，对70B模型只有0.4%性能损失。
参数越大的模型，低bit量化损失越低。
综合来说，如果追求无任何性能损失，8B模型用8bit量化，70B模型用4bit量化；如果能接受2-3%损失，8B模型用4bit量化，70B模型用3bit量化。

概述

这篇论文旨在评估LLAMA3模型在低比特量化（1-8位）下的性能表现，特别是在资源受限的环境中。通过对现有的后训练量化（PTQ）和LoRA微调量化（LoRA-FT）方法进行全面评估，研究其在LLAMA3模型上的适用性及其性能衰减问题。期望通过这项研究为未来开发更高效的低比特量化方法提供参考。

新颖性

论文的新颖性体现在以下几个方面：

LLAMA3模型的首次全面量化评估：尽管LLAMA3模型已经展示了卓越的性能，但其在低比特量化条件下的表现尚未得到充分研究。
多种量化方法和广泛的数据集：本文选择了10种现有的量化方法，并使用了多个数据集来进行实验，涵盖从1位到8位的量化范围，提供了全面的性能评估。
揭示量化带来的性能挑战：研究揭示了LLAMA3在超低比特量化条件下的显著性能衰减问题，指出了未来改进的方向。

量化和反量化

量化是将高精度数字转换为低精度数字，以减少存储和计算资源。具体步骤如下：

确定范围：确定FP16格式的权重范围，例如0.871。
计算比例因子（Scale）：使用int8的范围乘以比例因子，以覆盖FP16的范围。
应用量化公式：将FP16格式的数据乘以比例因子并四舍五入转换为int8格式。

反量化是将量化后的数据恢复到高精度格式。步骤包括：

应用反量化公式：使用比例因子将量化数据还原。
注意误差：反量化可能导致数据不完全准确。

常见量化方式

1. GPT-Q：GPT模型的训练后量化

GPTQ 是一种用于4位量化的训练后量化 (PTQ) 方法，旨在优化GPU推理和性能。其核心思想是通过将所有权重压缩到4位量化中来最小化均方误差，并在推理过程中动态地将权重解量化为float16。具体步骤包括缩放、四舍五入、限制范围和反缩放。
关键点：

能在四个GPU小时内量化1750亿参数的GPT模型，将位宽减少到3或4位，准确性几乎不受影响。
这种方法的压缩增益是以前方法的两倍多，保持了准确性。
可以用于端到端推断加速，相对于FP16，使用高端GPU（NVIDIA A100）时约为3.25倍，使用NVIDIA A6000时为4.5倍。
是第一个表明可以将数百亿参数的模型量化为每个组件3-4位的方法。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

江小皮不皮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。