大模型学习笔记------Llama 3模型架构简介

news/2025/3/7 1:52:57/

大模型学习笔记------Llama 3模型架构

    • 1、整体网络结构
    • 2、主要创新点
    • 3、其他关键改进点

    LLaMA(Large Language Model Meta AI)系列模型是Meta发布并开源,分别在2023年2月、2023年7月和2024年4月发布了经历了LLaMA 1、LLaMA 2和LLaMA 3模型。本文只讲相对比较成熟、性能最优的LLaMA 3模型的架构,LLaMA 3模型主要是两个版本,分别是8B和70B。

1、整体网络结构

    Llama 3模型基于标准的Transformer架构进行了多项改进,包括更高的效率和更好的性能。两个架构的对比如下图所示:
在这里插入图片描述
    从上图整体可以看出,Llama 3模型实质上去掉了Transformer部分的编码部分,是Transformer解码部分的改进版本,即Transformer Decoder-Only,采用仅解码器架构,专注于生成式任务(文本续写、对话等)。

2、主要创新点

    Llama 3模型具体改进如下所示:

  • 使用RMS Norm代替了常用的Layer Norm,计算量减少 20% 且效果持平,加速训练;
  • 激活函数由SwiGLU代替ReLU或是GELU,增强非线性表达能力。;
  • 位置编码由原来的正弦-余弦绝对位置编码或是相对位置编码修改为RoPE(Rotary Position Embedding)编码;
  • 在70B模型中,采用 GQA 替代传统 MHA(Multi-Head Attention),将查询头分组共享键/值头,显著降低推理显存占用(约 30%),同时保持生成质量;在8B模型中,依然采用MHA结构。

3、其他关键改进点

    Llama 3模型除了以上改进点外,还有一些小的改进点对整个模型的鲁棒性和泛化能力的提高也有至关重要的作用,具体如下:

  • Flash Attention V2 集成:通过硬件感知的 IO 优化,提升训练效率,70B 模型训练速度较前代提升 40%;
  • 前馈网络(FFN)扩展:增加隐藏层维度倍增,如70B模型的FFN中间层维度达到了28K,参数占比超过了70%;
  • 15T Tokens 语料:涵盖 30+ 种语言,代码数据占比提升至 10%,强化推理能力。数据清洗采用多级过滤(启发式规则 + 模型打分 + 人工审核);
  • Tokenizer 升级:词表扩展至 128K(前代 32K),支持更细粒度分词,降低序列长度 20%。通过 BPE 算法 联合训练多语言分词,减少低资源语言分词错误;

    LLaMA 3 通过 架构深挖(更宽更深的网络)、注意力机制创新(GQA)、长上下文优化(RoPE 增强)和 训练效率突破(Flash Attention),在保持推理效率的同时实现 SOTA 性能。70B 版本在 MMLU、GSM8K 等基准测试中超越 GPT-3.5,接近 GPT-4 Turbo 水平,标志着开源模型步入顶尖行列。


http://www.ppmy.cn/news/1576918.html

相关文章

(模拟 反转字符串中的单词)leetcode 151

这个题我们用一个vector<string>s1的容器存放所有的单词&#xff0c;建立string ans再倒序依次添加s[i]再添加空格返回 如何正确地讲单词存入ans? 答&#xff1a;1.使用substr提取单词 2.建立left变量 这算核心的思路了&#xff0c;详解注释看代码的解析 还有更简单的…

OCCT 学习笔记:创建瓶子教程的三个关键知识点

对OCCT已经有了多年了解&#xff0c;但时不时还是要翻一翻它的官方文档。今天重读了&#xff1a;Bottle Tutorial 教程概况 这篇教程文档围绕使用Open CASCADE Technology进行3D建模展开&#xff0c;以创建一个瓶子模型为例&#xff0c;逐步介绍建模过程及相关技术要点&#x…

376_C++_云透传,板端负责处理透传数据的API函数,用于实现客户端对设备内部接口的访问(VMS把数据直接传给板端内部)

RsApi_PassThrough 云透传,板端负责处理透传数据的API函数,用于实现客户端对设备内部接口的访问(VMS把数据直接传给板端内部) 我来分析一下 RsApi_PassThrough 函数的作用和实现逻辑: 1. 功能概述 RsApi_PassThrough 是一个透传接口,用于处理 /API/Http/PassThrough 的…

面试高频考点:一文吃透并发Concurrency与并行Parallelism

并发&#xff08;Concurrency&#xff09;和并行&#xff08;Parallelism&#xff09;是系统设计中最容易被误解的两个概念。 虽然它们听起来很相似&#xff0c;但实际上指的是处理任务的两种截然不同的方法。 简单来说&#xff0c;一个是关于同时管理&#xff08;manage&…

FPGA学习(一)——DE2-115开发板编程入级

FPGA学习&#xff08;一&#xff09;——DE2-115开发板编程入级 一、实验目的 通过 1 位全加器的详细设计&#xff0c;深入掌握原理图输入以及 Verilog 的两种设计方法&#xff0c;熟悉 Quartus II 13.0 软件的使用流程&#xff0c;以及在 Intel DE2-115 开发板上的硬件测试过…

用CLI操作MySQL 92数据库的命令

打开CLI&#xff1a; 输入数据库root密码&#xff1a; 注意&#xff1a;root密码在安装MySQL数据库时创建。需要记住。 查看数据库&#xff0c;可以参考库-表-列的顺序&#xff0c;先查看数据库库&#xff1a; show databases&#xff1b;再查看数据cfriends_db数据库中的数据…

HarmonyOS学习第12天:解锁表格布局的奥秘

表格布局初相识 不知不觉&#xff0c;我们在 HarmonyOS 的学习旅程中已经走到了第 12 天。在之前的学习里&#xff0c;我们逐步掌握了 HarmonyOS 开发的各种基础与核心技能&#xff0c;比如组件的基本使用、布局的初步搭建等&#xff0c;这些知识就像一块块基石&#xff0c;为我…

微软官宣5 月 5 日关闭 Skype,赢者通吃法则依然有效

微软官宣&#xff1a;5月5日关闭Skype 近日&#xff0c;微软公司宣布了一项重要决定&#xff1a;旗下广受欢迎的全球网络通话服务Skype将于2025年5月5日正式关闭。这一消息在全球范围内引发了广泛关注与讨论。 从Skype的崛起来看&#xff0c;它凭借免费拨打电话&#xff08;尤…