NLP(18)--大模型发展(2)

ops/2024/10/10 8:31:02/

前言

仅记录学习过程,有问题欢迎讨论

Transformer结构:

在这里插入图片描述

LLM的结构变化:

Muti-head 共享:

  • Q继续切割为muti-head,但是K,V少切,比如切为2个,然后复制到n个muti-head
  • 减少参数量,加速训练
    在这里插入图片描述

attention结构改动:

  • self-attention和feedforward并行计算(bert为顺序计算)
    不算主流
    在这里插入图片描述

归一化层位置变化:

  • 在attention之前(pre norm),在feedforward之后(正常为 attention->++±>layer->FFN–>++±->layer)
    在这里插入图片描述

归一化函数变化:layerNorm 改为 RMSNorm

  • 主流为norm层提前到attention层之前

在这里插入图片描述

激活函数变化

  • swish:两个线性层 gated
    在这里插入图片描述

LLama2模型结构:

  • transformer Block:
    RMSNorm–>Liner–>q*k(T) *V -->softmax–>Liner–>RMSNorm–>swish–>Liner
    计算qk带上位置编码
    在这里插入图片描述

MOE架构:

  • 在feed forward中有多个类型的前馈层,根据分类的结果来选择,每个前馈层都是一个专家
    在这里插入图片描述

位置编码:

  • 因为transformer的输入是token,而不是序列,所以需要位置编码来表示token之间的相对位置
  • 正弦、余弦编码:每个字按公式计算位置维度信息,但是不能学习,得到position encoding+word embedding
  • bert 自带可训练的位置编码 position embedding;但是无法外推,最大文本长度是多少就是多少(512)
  • ROPE相对(旋转)位置编码;
    在计算某个词的emb时,映射其之前的位置emb信息(Xm,Xn,m-n)
    可以外推,也无需训练
  • Alibi位置编码;
    在QK中 加上位置矩阵m

总结:对于文本类任务,位置信息是重要的
可学习的位置编码缺点在于没有长度外推性
相对位置编码不需要学习,有一定的长度外推性,但是相对位置编码具有天然的远程衰减性
目前的主流是ROPE和Alibi两种相对位置编码

多模态:
常见:图像、音频、视频、文本
罕见:3D模型,神经信号,气味
输入到输出是不同的模态
要点:文本、图像如何编码;二者如何交互

flamingo:qkv ,其中Q为文本,KV为图像(KV决定输出),所以计算文本和图像之前的相关性,在attention中交互

LLava:文本和图像emb拼接 走类似llama的流程,但是没有多头机制,本质上还是self attention

cv基础:
图像=矩阵 使用RGB 3通道叠加展示色彩
视频就是多个图像组成的张量

Diffuse Model: sora背后的技术
diffusion思想:随机生成一副噪音图像,持续的进行有条件的去噪,直到显示出有意义的图像(类似于对石头雕像)
Denoise:使用Noise predictor 预测噪声(输入输出都是矩阵),
然后去噪就是:噪声图像-噪声

贴一个测试图:

在这里插入图片描述
PS:
LLaMA 3 引入了 分组查询注意力(Grouped Query Attention, GQA) 作为其注意力机制的一部分,而 LLaMA 2 使用的是标准的多头注意力(Multi-Head Attention, MHA)。GQA 可能通过不同的方式组织和处理查询(Queries),从而优化了注意力计算过程,提高了模型的推理效率,同时保持或增强了模型的表现力。


http://www.ppmy.cn/ops/43919.html

相关文章

STM32无源蜂鸣器播放音乐

单片机:STM32F407ZGT6 开发软件:MDKSTM32CubeMX 文章目录 前言一、找一篇音乐的简谱二、确定音调三、确定节拍四、使用STM32CubeMX生成初始化代码五、代码分析 前言 本实验使用的是低电平触发的无源蜂鸣器 无源蜂鸣器是指没有振荡源的蜂鸣器&#xff0…

​你见过哪些不过度设计的优秀APP?​

优联前端https://ufrontend.com/ 提供一站式企业前端解决方案 “每日故宫”是一款以故宫博物院丰富的藏品为基础,结合日历形式展示每日精选藏品的移动应用。通过这款应用,用户可以随时随地欣赏到故宫的珍贵藏品,感受中华五千年文化的魅力。…

leecode 637 二叉树的层平均值

leetcode 二叉树相关-层序遍历专题 二叉树的层序遍历一般来说,我们是利用队列来实现的,先把根节点入队,然后在出队后将其对应的子节点入队,然后往复此种操作。相比于二叉树的遍历递归,层序遍历比较简单,有…

k8s使用Volcano调度gpu

k8s部署 https://www.yangxingzhen.com/9817.html cri-dockerd安装 https://zhuanlan.zhihu.com/p/632861515 安装nvidia-container-runtime https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html 安装k8s-device-plugin https://…

企微运营SOP:构建高效、规范的运营流程

随着企业微信在企业内部沟通协作中的广泛应用,如何构建一套高效、规范的企微运营流程成为了众多企业关注的焦点。本文将详细探讨企微运营SOP(Standard Operating Procedure,标准操作程序)的重要性、构建方法以及实施效果&#xff…

Linux基础指令

目录 前言: pwd命令: mkdir指令(重要): ls 指令: cd 指令: 绝对路径: 相对路径: tree指令: touch指令: rm 指令: 在Linux编…

08Django项目--用户管理系统--查(前后端)

对应视频链接点击直达 TOC 一些朋友加我Q反馈,希望有每个阶段的完整项目代码,那从今天开始,我会上传完整的项目代码。 用户管理,简而言之就是用户的增删改查。 08项目点击下载,可直接运行(含数据库&…

Llama3大模型原理代码精讲与部署微调评估实战

课程链接:Llama3大模型原理代码精讲与部署微调评估实战_在线视频教程-CSDN程序员研修院 本课程首先讲述了有关Transformer和大语言模型(LLM)的关键前置知识, 包括注意力机制、多头注意力、编码器-解码器结构等Transformer原理, 以及LLM的文本生成和LLM微调技术原理…