2025年2月24日,DeepSeek以「开源周」首日发布的FlashMLA技术,重新定义了Hopper架构GPU在AI推理领域的性能极限。这款专为NVIDIA H800/H100系列优化的MLA(Multi-head Latent Attention)解码内核,通过突破性算法设计与硬件协同优化,在可变长度序列处理场景中实现了3000GB/s内存带宽与580 TFLOPS计算吞吐的里程碑式突破。其开源策略(MIT协议)与生产级验证特性,标志着大模型推理加速技术正式进入「工业级可用」新阶段。
一、技术架构:从KV缓存重构到计算范式革新
FlashMLA的核心创新在于对Transformer推理流程的系统性重构,其技术框架包含三个关键层级:
-
分页KV缓存机制
采用64块大小的动态分页存储策略,通过SW128/SW64交换式共享内存布局实现三维张量压缩:- 将传统连续KV缓存分解为逻辑块(Block Size=64),构建类操作系统的虚拟内存管理机制
- 结合动态Split-KV策略,根据序列长度自动切换计算模式(单块/分块