DeepSeek 新注意力架构NSA

server/2025/2/21 4:01:17/

DeepSeek 新注意力架构NSA概要

研究背景:

实现高效长上下文建模的自然方法是利用 softmax 注意力的固有稀疏性,通过选择性计算关键 query-key 对,可以显著减少计算开销,同时保持性能。最近这一路线的进展包括多种策略:KV 缓存淘汰方法、块状 KV 缓存选择方法以及基于采样、聚类或哈希的选择方法。尽管这些策略前景广阔,现有的稀疏注意力方法在实际部署中往往表现不佳。许多方法未能实现与其理论增益相媲美的加速;此外,大多数方法主要关注推理阶段,缺乏有效的训练时支持以充分利用注意力的稀疏模式。

挑战:

部署有效的稀疏注意力必须应对两个关键挑战:
1、硬件对齐的推理加速:将理论计算减少转化为实际速度提升,需要在预填充和解码阶段设计硬件友好的算法,以缓解内存访问和硬件调度瓶颈;
2、训练感知的算法设计:通过可训练的操作符实现端到端计算,以降低训练成本,同时保持模型性能。

关键技术

为了实现更有效和高效的稀疏注意力,DeepSeek 研究人员提出了一种原生可训练的稀疏注意力架构 NSA,它集成了分层 token 建模。
NSA引入了两个核心创新以对应于上述关键需求:
1、硬件对齐的系统:优化块状稀疏注意力以利用 Tensor Core 和内存访问,确保算术强度平衡;
2、训练感知的设计:通过高效算法和反向操作符实现稳定的端到端训练。这一优化使 NSA 能够支持高效部署和端到端训练。

在这里插入图片描述
如上图所示,NSA 通过将键和值组织成时间块(temporal blocks)并通过三条注意力路径处理它们来减少每查询计算量:压缩的粗粒度 token、选择性保留的细粒度 token 以及用于局部上下文信息的滑动窗口。随后,作者实现了专门的核以最大化其实际效率。

实验测试结果

  1. 一般基准性能:尽管 NSA 可能无法充分利用其在较短序列上的效率优势,但它依然表现出了强劲的性能。值得注意的是,NSA 在推理相关基准测试中表现出了显著的提升(DROP:+0.042,GSM8K:+0.034),这表明 DeepSeek 的预训练有助于模型发展出专门的注意力机制。通过过滤掉不相关的注意力路径中的噪音,这种稀疏注意力预训练机制可迫使模型专注于最重要的信息,有可能提高性能。
  2. 长上下文基准性能: NSA 具有处理各种长上下文任务中的能力,其原生预训练的稀疏注意力在学习任务最优模式方面提供了额外的助益。
  3. 思维链推理性能评估:在 8k 上下文设置下,NSA-R 的准确性显著高于 Full Attention-R(+0.075),这一优势在 16k 上下文设置下仍然保持(+0.054)。

总结:

原生稀疏注意力的两个关键优势:
(1)预训练的稀疏注意力模式能够高效捕捉对复杂数学推导至关重要的长距离逻辑依赖关系;
(2)该架构的硬件对齐设计保持了足够的上下文密度,以支持不断增长的推理深度,而不会出现灾难性遗忘。在不同上下文长度下的一致优势证实了稀疏注意力在原生集成到训练流程中时,对于高级推理任务的可行性。

参考链接:
https://arxiv.org/abs/2502.11089
https://www.jiqizhixin.com/articles/2025-02-18-11


http://www.ppmy.cn/server/169448.html

相关文章

【第四届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2025】网络安全,人工智能,数字经济的研究

重要信息 会议官网:www.csaide.net 会议时间:2025年3月7-9日 会议地点:马来西亚-马来西亚理工大学新山校区(线上线下混合) 简介 过去几年,数字经济蓬勃发展,已成为全球经济增长的驱动力。…

网络爬虫学习:借助DeepSeek完善爬虫软件,实现模拟鼠标右键点击,将链接另存为本地文件

一、前言 最近几个月里,我一直在学习网络爬虫方面的知识,每有收获都会将所得整理成文发布,不知不觉已经发了7篇日志了: 网络爬虫学习:从百度搜索结果抓取标题、链接、内容,并保存到xlsx文件中 网络爬虫学…

探索低空,旅游景区无人机应用技术详解

在低空领域,无人机技术在旅游景区中的应用已经日益广泛,为旅游业带来了前所未有的变革。以下是对旅游景区无人机应用技术的详细解析: 一、无人机景区巡检系统 1. 高清拍摄与实时监控:无人机搭载高清摄像头,能够对景区…

Step-Video-T2V:阶跃星辰发布最强开源视频生成模型(论文详解)

1.简介 在本技术报告中,作者介绍了Step-Video-T2 V,这是一种最先进的视频基础模型,具有30 B参数,能够理解中文和英文提示,生成高质量的视频(544 x992分辨率),最长可达204帧&#xf…

Java 反射

一. 概述 反射:加载类,并允许以编程的方式解剖类中的各个成分(成员变量、方法、构造器等等) 二. 获取类的字节码:Class对象 三种方式: 1. Class c1 类名.class: 2. 调用Class提供的方法:public static C…

一文看常见的消息队列对比

一、核心特性对比表 维度KafkaRabbitMQRocketMQPulsar架构设计分布式日志系统,依赖ZooKeeper基于AMQP协议的代理模型主从架构NameServer协调分层架构(BrokerBookKeeper)单机吞吐量100万 TPS5万 TPS50万 TPS150万 TPS消息延迟毫秒级&#xff…

Flask 发送邮件

下载 pip install flask-mail config.py MAIL_SERVER "smtp.qq.com" MAIL_USE_SSL True MAIL_PORT 465 MAIL_USERNAME "xxxxqq.com" MAIL_PASSWORD "xxxxx" MAIL_DEFAULT_SENDER "xxxxqq.com" 引入flask_mail exts.py fro…

【架构】分层架构 (Layered Architecture)

一、分层模型基础理论 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0365cf0bfa754229bdedca6b472bffc7.png 1. 核心定义 分层架构(Layered Architecture)模型是一种常见的软件设计架构,它将软件系统按照功能划分为不同的层次,每个层次都有特定的职责和功能…