模型压缩新选择——ZeroQuant提升模型压缩效率5.2倍
时间:2022-07-04 11:27:21.197
论文名:ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers
发布时间:2022年6月
论文地址:https://arxiv.org/abs/2206.01861
代码地址:https://github.com/microsoft/DeepSpeed
原文摘要:由于对强大的云服务器的内存/计算要求令人望而却步,如何在实践中高效地服务训练有素的自然语言模型也变得异常具有挑战性。在本工作中,我们提出了一种高效且经济实惠的训练后量化方法来压缩基于变压器的大型模型,称为零量化。ZeroQuant是一个端到端量化和推理管道,有三个主要组件:(1)一个用于权重和激活的细粒度硬件友好量化方案;(2)一个新的负担得起的逐层知识蒸馏算法(LKD),即使没有访问原始训练数据;(3)高度优化的量化系统后端支持,以消除量化/反量化开销。因此,我们能够证明:(1) ZeroQuant可以以免费的方式将BERT和GPT3风格的模型的权重和激活精度降低到INT8,精度影响最小,这导致与FP16推理相比,这些模型的加速高达5.19x/4.16x;(2)ZeroQuant加上LKD将全连接模块中的权重量化为INT4,以及注意力模块中的INT8权重和INT8激活,与FP16型号相比,内存占用减少了3倍;(3) ZeroQuant可以直接应用于两个最大的开源语言模型,包括GPT-J6B和GPT-NeoX20,我们的INT8模型实现了与FP16模型相似的精度,但效率提高了5.2倍。