WA_automat
N 人看过

最近学LLMs量化压缩,看到一篇把代码库写得比较完善的论文:

INT2.1: Towards Fine-Tunable Quantized Large
Language Models with Error Correction
through Low-Rank Adaptation

对应的代码库在:xTuring

最主要的还是量化的方法和微调的改进:

使用紧凑的数据类型来存储量化后的数据,以降低的消耗(这里是量化的方法)。

随后使用技术,将额外的可训练参数(矩阵)整合到模型中。

冻结量化模型的参数,只更新低秩近似矩阵(这里其实就是),恢复被量化降低的精度。

运行了一下官方对进行

量化前

模型参数量:

模型占用内存:Total estimated model params size ()(大约

量化后

模型占用内存:大约(压缩大概倍左右)

量化+微调时显存占用:左右

WikiText2 PPL:

压缩前:

压缩后:

效果还是挺不戳的。

后续可能尝试一下结合这个代码转向使用无数据(or低数据量)的方法进行LLMs的量化压缩。