一、量化 (Quantization)
量化的目标在于将原始以 32 位浮点数表示的模型参数和中间激活,转换为低精度(如 FP16、INT8、甚至更低位宽)的数值表示,从而在减少模型存储占用和内存带宽的同时,加速推理运算,特别适用于移动、嵌入式和边缘计算场景。
1.1 概念与目标
-
基本思想
将高精度数值离散化为低精度表示。例如,将 FP32 权重转换为 INT8,可降低内存需求约 4 倍,同时在支持低精度运算的硬件上加速计算。 -
主要目标
- 压缩存储:降低模型文件大小、显存/内存占用
- 加速计算:低精度运算单元(如 INT8 运算)通常速度更快
- 降低能耗:适用于资源受限设备
1.2 数学模型与公式
假设原始权重 x