NLP基础知识2【各种大模型的注意力】

server/2024/9/23 9:34:34/

注意力

  • 传统Attention存在的问题
  • 优化方向
  • 变体有哪些
  • 现在的主要变体集中在KV
  • Multi-Query Attention
  • Grouped-query Attention
  • FlashAttention

传统Attention存在的问题

  1. 上下文约束
  2. 速度慢,显存占用大(因为注意力考虑整体信息,所以每一个位置都要和其他位置计算注意力分数)

优化方向

  1. 上下文长度
  2. 加速
  3. 减少显存占用

变体有哪些

  • 稀疏注意力:引入稀疏偏差降低复杂性
  • 线性化注意力:解开Attention矩阵和内核特征图,然后逆序计算,实现线性复杂度(不太了解)
  • 改进多头
  • 内存压缩

现在的主要变体集中在KV

现在的MQ-A、GQ-A、KV-cache本质上都是复用、缓存KV矩阵,用于缓解内存和内存墙(缓存大小不足,需要频繁访存)的,现在较少有人能讲清楚为什么要存储KV而不是QKV或者Q?

  • 要从注意力机制的计算中寻找答案,以下为看图学的KV cache推理示意图:
    在这里插入图片描述- 显然,对于现在大模型中常用的单向注意力来说,Q只使用一次,但KV是随着句子的增长不断增加的,所以减少KV的使用变得十分重要。

Multi-Query Attention

  • Multi-Query从多头注意力改进而来,多头本身是KQV多头,现在是用Q多头,KV单头。也就是说,在所有注意力头上共享KV。
  • 优点:减少KV cache大小,减少显存占用,提高推理速度
  • 使用它的模型:GLM2~,Falcon等

Grouped-query Attention

  • 介于多头和多Q之间,复用N个KV,精度高一些。
  • LLaMA2用的就是这个

FlashAttention

  • 使用分块计算softmax
  • 解决显存和缓存

http://www.ppmy.cn/server/90600.html

相关文章

图片懒加载的使用

1.安装 npm i vue-lazyload 或者 yarn add vue-lazyload 2.导入 //引入 import VueLazyload from vue-lazyload //图片 import baby from /assets/images/baby.jpg 3.注册 // 注册 Vue.use(VueLazyload,{ //懒加载默认图片 loading: baby, }) 4.使用(将src替换称v-l…

PHP运算符

PHP 运算符是用于执行各种操作(如算术运算、比较、逻辑运算、字符串连接等)的符号。在 PHP 中,运算符的命名主要是基于它们的功能和用法,而不是像变量或函数那样可以自定义名称。以下是一个关于 PHP 运算符的详细教程,…

简单谈谈 手机版买卖现货白银的好和不好

随着科技的发展,现在买卖现货白银可以在移动设备上进行,那意味着投资者通过手机、平板电脑等都可以进行交易,这进一步解放了投资者交易的场所限制,让投资者有了更大的自由度。有条件的朋友,除了通过个人电脑做现货白银…

Datawhale AI 夏令营——AI+逻辑推理——Task1

# Datawhale AI 夏令营 夏令营手册:从零入门 AI 逻辑推理 比赛:第二届世界科学智能大赛逻辑推理赛道:复杂推理能力评估 代码运行平台:魔搭社区 比赛任务 本次比赛提供基于自然语言的逻辑推理问题,涉及多样的场景&…

探索 OpenAI GPT-4o Mini:开发者的高效创新工具

探索 OpenAI GPT-4o Mini:开发者的高效创新工具 最近,OpenAI 推出了全新的 GPT-4o Mini 模型,以其出色的性能和极具吸引力的价格,引起了开发者们的广泛关注。作为开发者,你是否已经开始探索这个“迄今为止最具成本效益…

【SpringCloud】企业认证、分布式事务,分布式锁方案落地-2

目录 高并发缓存三问 - 穿透 缓存穿透 概念 现象举例 解决方案 缓存穿透 - 预热架构 缓存穿透 - 布隆过滤器 布隆过滤器 布隆过滤器基本思想​编辑 了解 高并发缓存三问 - 击穿 缓存击穿 高并发缓存三问 - 雪崩 缓存雪崩 解决方案 总结 为什么要使用数据字典&…

docker常用命令集锦

目录 一、查看版本信息 1.1 查看 Docker CLI 版本: 1.2 查看 Docker 详细版本信息: 1.3 查看 Docker 系统信息: 二、进入和退出容器 2.1 进入容器: 2.2 退出容器: 2.3 查看容器日志: 2.4 查看容器的…

加入到「圆心学堂」知识星球后,你将获得些什么呢?

大家好呀,我的知识星球上线啦!加入到「圆心学堂」知识星球后,您将获得些什么呢? 1.共50套原创精品图文教程电子书,包含1000篇文章,涵盖主流框架、中间件、分布式和微服务等领域,紧跟行业趋势&a…