大模型基础知识

devtools/2024/10/18 20:19:45/

文章目录

  • 1. 位置编码
    • 1.1 绝对位置编码
    • 1.2 相对位置编码
    • 1.3 旋转位置编码
  • 2. 注意力机制
    • 2.1 MHA(muti head attention)
    • 2.2 MQA(muti query attention)
    • 2.3 GQA(grouped query attention)
  • 3. 大模型分类
  • 4. 微调方法
    • 4.1 Prompt Tuning
    • 4.2 Prefix Tuning
    • 4.3 Lora
    • 4.4 QLora
  • 5. LangChain
  • 6. LLAMA
    • 6.1 RMSNorm
    • 6.2 SwiGLU
  • 7. 加速技巧
    • 7.1 KV Cache
    • 7.2 混合精度训练
    • 7.3 deepspeed

1. 位置编码

参考:让研究人员绞尽脑汁的Transformer位置编码

1.1 绝对位置编码

绝对位置编码是一种相对简单的位置编码方式,主要有如下几种方式

  • 训练式:直接将位置编码当作可训练参数,如BERT、GPT等,缺点是没有外推性
  • 三角式:使用三角函数进行编码,如transformer;
    • 优点:1. 有显式的生成规律,有一定的外推性;2. 由 s i n ( α + β ) sin(\alpha + \beta) sin(α+β) 的展开式可以得到, α + β \alpha+\beta α+β的向量可以表示成 α \alpha α β \beta β向量的组合,即提供了相对位置信息。
    • 缺点:计算复杂
  • 递归式:如RNN的形式,在句子后面接RNN,再输入到transformer理论上可以不用位置编码

1.2 相对位置编码

相对位置并没有建模每个输入的位置信息,而是在算Attention的时候考虑当前位置与被Attention的位置的相对距离,由于自然语言一般更依赖于相对位置,所以相对位置编码通常也有着优秀的表现。相对位置将本来依赖于二元坐标 ( i , j ) (i,j) (i,j) 的向量改为只依赖于相对距离 i − j i−j ij,并且通常来说会进行截断,所以能适配任意的距离

经典的相对位置编码比如XLNET、T5、等都是在 q i k j T q_ik_j^T qikjT的展开式上进行处理,如下图所示:
在这里插入图片描述

1.3 旋转位置编码

目前很火的LLAMA、GLM模型都采用的是旋转位置编码,和相对位置编码相比,RoPE具有更好的外推性。其基本思想是 q m k n q_m k_n


http://www.ppmy.cn/devtools/43691.html

相关文章

LangChain实战 | 3分钟学会SequentialChain怎么传多个参数

SequentialChain参数传递,总结了以下四种类型 参数传递入参出参一 对 一11一 对 多1n多 对 一n1多 对 多nn 0.连接大模型 先选一个llm,参考这篇博客选择一个国内大模型 LangChain连接国内大模型测试|智谱ai、讯飞星火、通义千问 from langchain_comm…

国产卫星星座,为什么一定要“走出去”?

今天这篇文章,我们来聊聊卫星和星座。 2024年行将过半,全球卫星通信产业的发展,又有了新的变化。 在卫星星座方面,各大企业的竞争博弈全面进入白热化阶段。卫星的发射速度在不断加快,而全球星座项目的数量和规模也在持…

数据结构:队列

目录 队列的概念和结构 队列的实现 结构定义 初始化 判空 入队列 出队列 返回队头元素 返回队尾元素 返回size 销毁 队列的概念和结构 队列:只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表,队列具有先进先出…

力扣:541. 反转字符串 II

541. 反转字符串 II 给定一个字符串 s 和一个整数 k,从字符串开头算起,每计数至 2k 个字符,就反转这 2k 字符中的前 k 个字符。 如果剩余字符少于 k 个,则将剩余字符全部反转。如果剩余字符小于 2k 但大于或等于 k 个&#xff0…

Vue进阶之Vue项目实战(四)

Vue项目实战 出码功能知识介绍渲染器性能调优使用 vue devtools 进行分析使用“渲染”进行分析判断打包构建的产物是否符合预期安装插件使用位置使用过程使用lighthouse分析页面加载情况使用performance分析页面加载情况应用自动化部署与发布CI/CD常见的CI/CD服务出码功能 出码…

vue数字翻盘,翻转效果

数字翻转的效果 实现数字翻转的效果上面为出来的样子 下面为代码&#xff0c;使用的时候直接引入&#xff0c;还有就是把图片的路径自己换成自己或者先用颜色替代&#xff0c;传入num和numlength即可 <template><div v-for"(item, index) in processedNums&quo…

linux学习(六)

1.网络管理 (1)查看 ifconfig: root用户可以查看网卡状态, 普通用户: /sbin/ifconfig(需要加上命令的完整路径) (2)修改网络配置 通过命令修改网络配置 设置网卡的ip地址;禁用网卡和启用网卡了。 添加网关: (3)网络故障查询 ①ping 检测当前主机和目标主机是…

PHP:phpmyadmin 将查询数据导出csv

1、输入你的SQL查询出结果 2、查出数据以后拖到最下方【导出】 3、导出CSV