文章目录
- 1 PTQ
- 1.1 动态量化
- 1.2 静态量化
- 2 四位量化的领域
- 2.1 GPTQ
- 2.2 GGUF(可用CPU)
- 2.3 定点量化技术
- 3 参考附录
1 PTQ
训练后量化 :Post-Training Quantization (PTQ),模型训练完成后进行量化。
较流行的量化技术的方法之一是post-training quantization(PTQ),是指在训练后对模型参数中的权重和激活进行量化处理。
在PTQ方法中, 激活值的量化需要通过模型推断来获取其潜在分布,因为其数值范围在推理前处于未知状态。
激活值的量化有两种主要形式:
(1)Dynamic Quantization 动态量化
(2)Static Quantization 静态量化
1.1 动态量化
数据在流转过程中经过激活函数后,其activations被存储:
使用activations的分布来计算量化时所需要的零点z值和比例因子s值。
假设某层activations分布中的最大值为α,最小值为β,则z、s以及量化后的数值计算如下: