最近学LLMs量化压缩,看到一篇把代码库写得比较完善的论文:
对应的代码库在:xTuring
最主要的还是量化的方法和微调的
使用紧凑的
随后使用
冻结量化模型的参数,只更新低秩近似矩阵(这里其实就是
在
量化前:
模型参数量:
模型占用内存:
量化后:
模型占用内存:大约
量化+微调时显存占用:
WikiText2 PPL:
压缩前:
压缩后:
效果还是挺不戳的。
后续可能尝试一下结合这个代码转向使用无数据(or低数据量)的方法进行LLMs的量化压缩。
最近学LLMs量化压缩,看到一篇把代码库写得比较完善的论文:
对应的代码库在:xTuring
最主要的还是量化的方法和微调的
使用紧凑的
随后使用
冻结量化模型的参数,只更新低秩近似矩阵(这里其实就是
在
模型参数量:
模型占用内存:
模型占用内存:大约
量化+微调时显存占用:
WikiText2 PPL:
压缩前:
压缩后:
效果还是挺不戳的。
后续可能尝试一下结合这个代码转向使用无数据(or低数据量)的方法进行LLMs的量化压缩。