LLM 量化 cache管理

ops/2025/3/28 7:43:52/

本文基于百度昆仑第二代硬件

前提

当前百度硬件tensor core支持的输入：int16， int8, bfp16
当前百度硬件tensor core支持的计算方式： int16， fp16，int8
常见的LLM大模型激活类型：fp16，bfp16
cache类型：fp16， bfp16，int8，int4

量化

这里列举一下当前常用的方式以及量化方法

	激活	cache	计算方式
类型1	fp16	fp16	量化到int16，然后做int16*int16的计算，输出反量化到fp16
类型2	fp16	int8	输入量化到int16(实为int8 * 2)，与cache 做两次计算，最后输出反量化到fp16

这里主要讨论一下cache 的量化方式：

当用类型1时，cache为fp16，此时需要量化到int16，此时需要一个per cache的 max/scale值来进行量化。（计算量 cache len）
这里可以做一个优化，保存一个per cache 的max值，每次插入数据时更新per cache max值。（计算量 1）
然而，当遇到动态插入情况时，如下图图2，Q4结束了，Q6插入，但这时Q4的max值还在cache max值中，这里有一个解决版本，保存per batch 的max，当某个batch 结束了，置空该值，然后在送入attention算子之前提前更新per cache max值 （计算量 batch）
当用类型2时，输入时int8，主要涉及到的是反量化，用到了静态量化方式。
常见的静态量化为：per channel，百度采用per head量化，（seqlen， head_num, head_dim）在head_num维度做量化。

题外

当然这些量化方式对硬件来说不需要关注，硬件只需要知道这一批数据max值是多少，量化还是反量化，输入输出类型是啥。怎么用就属于算子层实现，
例如：per head量化方式

for (int i = 0; i < seqlen; i++) {for (int j = 0; j < head_num; j++) {float scale = head_num_sacle[j];for (int k = 0; k < head_dim; k++) {dequant_or_quant(x, y, scale);}}
}

LLM 量化 cache管理

前提

量化

题外

相关文章

Rust语言学习

从需求到智能管理：用 AntSK 和 DeepSeek-R1 打造企业级知识库与测试用例生成系统

【简单有效！】Gradio利用html插件实现video视频流循环播放

【最新版】龙兵名片V152独立版系统源码+在线更新+搭建教程

RC5在线加密工具

在LwIP中，`tcp_recved()`、`tcp_sndbuf()` 和 `tcp_write()`三个函数详细用法及示例

CVPR2025 | 对抗样本智能安全方向论文汇总 | 持续更新中~

DeepSeek的智能IT核心技术矩阵