模型量化对LLM性能和显存占用的影响

type

status

date

slug

summary

结论

量化的大参数模型性能通常优于未量化的小参数模型。

推荐在显存资源紧张的环境中使用 GPTQ 或 AWQ 部署更大参数模型的量化版本，平均性能损失通常不超过5%，显存占用减少一半以上(精度与显存换算约为 BF16:1b=2g INT8:1b=1g INT4:1b=0.5g)。

本文针对量化模型提出结构化的评估框架，从知识与容量、一致性和效率三个关键维度出发，在十种基准测试进行测试。

主要结论：

性能保持：int4量化的LLMs能够保持与未量化模型相当的性能。

参数规模：参数规模更大的量化LLMs表现优于小规模模型。

摘要

随着大型语言模型（LLMs）参数数量的增加，通常能在下游任务中提升性能，但同时也增加了计算和内存成本，使得在资源有限的环境中部署变得困难。量化技术，通过用最小的性能损失减少模型权重或激活所需的位数，因LLMs的兴起而变得流行。然而，大多数量化研究使用的是预训练的LLMs，而量化对指令调优的LLMs的影响，以及量化LLMs的困惑度与基准性能之间的关系，尚不明了。量化LLMs的评估通常仅限于语言建模和少数分类任务，其在其他基准上的表现仍不清楚。为了解决这些差距，我们提出了一个包含三个关键维度的结构化评估框架：（1）知识与容量，（2）一致性，（3）效率，并在十个不同的基准测试上进行了广泛实验。我们的实验结果表明，4位量化的LLMs能够保持与非量化模型相当的性能，并且在大多数基准测试上，困惑度可以作为量化LLMs的一个代理指标。此外，参数规模更大的量化LLMs能够表现优于较小的模型。尽管通过量化实现了内存节省，但这也可能降低LLMs的推理速度。因此，为了在量化LLMs的解码速度和内存消耗之间实现平衡的优化，需要大量的工程努力和硬件支持。

指标及测试结果

平均准确率（Average Accuracy）和平均BLEU分数（Average BLEU Score）显示，即使在4位量化后，模型的性能表现接近于未量化的版本。例如，对于具有不同参数规模的Qwen-Chat系列模型，即使在量化到4位后，它们的准确率和BLEU分数仍然保持在一个较高的水平，与未量化版本相比仅有轻微的下降。Qwen-7B-Chat 模型在4位量化后的平均准确率为54.86%，平均BLEU为28.43，而未量化前的准确率接近57.10%，BLEU为29.63。

ROUGE分数：量化模型在文本摘要任务（如CNN/DailyMail和XSum基准）中的ROUGE-1, ROUGE-2, 和 ROUGE-L 分数也显示出与未量化模型相似的结果。在4位量化下，ROUGE-1/ROUGE-2/ROUGE-L 分数分别为0.254/0.084/0.167，接近未量化状态下的0.257/0.086/0.168。

困惑度（Perplexity）：尽管量化模型的复杂度略有上升，但该指标仍显示出量化模型在多数评估基准上具有良好的性能。

量化前后效果评测对比

Qwen2 官方文档

https://qwen.readthedocs.io/zh-cn/latest/benchmark/speed_benchmark.html

https://qwen.readthedocs.io/zh-cn/latest/benchmark/quantization_benchmark.html

零一万物官方文档

https://github.com/01-ai/Yi/blob/main/README_CN.md#chat-模型性能

参考视频

如何评估量化后大语言模型？对比14B量化和7B模型哪个好

https://www.bilibili.com/video/BV1Xu4y1J7i5/

不同量化模式的区别？模型量化选择AWQ还是GPTQ

https://www.bilibili.com/video/BV1jZ421U7b4/

其他

Perplexity 指标

Perplexity（困惑度）是一个与MMLU（Massive Multitask Language Understanding）、C-Eval（Contextual Evaluation）、和IFEval（Instruction Following Evaluation）等评估方法不同的指标。这些指标通常用于评估语言模型在特定任务或指令下的表现能力，而Perplexity主要衡量的是模型对语言的整体理解和生成能力，尤其是在预测连续文本中下一个词的概率时的表现。

困惑度的定义

困惑度是一个基于模型在测试集上的概率估计的度量。对于语言模型，困惑度定义为：

这里是模型分配给整个测试集序列的概率，是测试集中的单词总数。通常会采用链式规则将联合概率分解为多个条件概率的乘积，然后取对数来避免数值下溢：

量化模型中的困惑度

在量化模型的上下文中，量化是通过将模型的浮点数权重转换为低位整数形式来减少模型的大小和提高推理速度。这种转换可能会对模型的精确度造成影响，因此，困惑度成为衡量量化前后模型性能变化的一个重要指标。如果量化处理导致模型的困惑度显著增加，这可能意味着模型的预测能力受到了较大影响。在调整量化参数（如位宽选择、量化策略等）时，可以通过比较量化前后的困惑度来找到性能和效率之间的最佳平衡点。

结论

相关文献

摘要