探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(一)

ops/2025/2/21 4:26:12/

探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(一)

Meta 通过推出新的开源 AI 模型 Llama 3 以及新版本的 Meta AI,正在加强其在人工智能 (AI) 竞赛中的竞争力。该虚拟助手由 Llama 3 提供支持,现已可在所有 Meta 平台上使用。

  • Llama 3 是什么?:Meta 推出了 Llama 3,这是其 Llama 系列开源 AI 模型中的最新版本。 Llama 3 有两种变体:一种具有 80 亿个参数,另一种具有 700 亿个参数。Meta 声称 Llama 3 在这些参数尺度上为大型语言模型设立了新标准。他们改进了训练前和训练后流程,从而降低了错误拒绝率、更好的对齐以及模型的更多样化的响应。值得注意的是,Llama 3 拥有增强的推理、代码生成和指令跟踪能力。

在这里插入图片描述
LLaMA 架构:

  • 与前代模型之间的主要区别在于,预训练语料库的大小增加了 650% ,LLaMA 2 在 2T标记上进行训练,而 LLaMA 3 在 15T 标记上进行训练,模型的上下文长度从 4K 增加了一倍到 8K ,8B 和 70B 模型,并对 8B 和 70B 变体采用分组查询注意力,与上一代(GQA)相比,仅在更大的模型 34B 和 70B 中使用。最有影响力的部分是新的安全方法,包括安全和有用两种奖励模式。

Llama3__10">Llama3 模型大小、架构、优化超参数

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

llama2__17">llama2 模型大小、架构、优化超参数

在这里插入图片描述

Llama1 参数

在这里插入图片描述

Llama架构

在这里插入图片描述

LLaMA 3 架构主要采用与 LLaMA 2 相同的架构,其中 GQA(分组查询注意)用于 8B 和 70B 模型,RoPE(旋转位置嵌入)用于 Q、K,因为 V 仅在应用 SoftMax 之前相乘函数,RMS(均方根误差)用于在 Self Attention 之前应用的归一化,前馈块,KV 缓存也与 LLMA 中使用的保持相同。注意:此模型架构仅专注于模型推理,而不是用于训练,因此具有交叉注意力的解码器块不会被覆盖,KV 缓存也不会用于模型的训练阶段。

大模型技术分享

在这里插入图片描述

在这里插入图片描述


http://www.ppmy.cn/ops/27618.html

相关文章

用LM Studio搭建微软的PHI3小型语言模型

什么是 Microsoft Phi-3 小语言模型? 微软Phi-3 模型是目前功能最强大、最具成本效益的小型语言模型 (SLM),在各种语言、推理、编码和数学基准测试中优于相同大小和更高大小的模型。此版本扩展了客户高质量模型的选择范围&#x…

Ajax从入门到精通

AJAX无刷新交互 目录(单击跳转对应目录) 1.初步认识AJAX............................................................ 1 1.1AJAX原理和优点...................................................... 1 1.2实际使用..................................…

Springboot+Vue+小程序+基于微信小程序护农远程看护系统

开发平台为idea,maven管理工具,Mybatis操作数据库,根据市场数字化需要为农户打造小程序可远程查看农场的种植情况。项目是调试,讲解服务均可有偿获取,需要可在最下方QQ二维码处联系我。 SpringbootVue小程序&#xff…

java面试(微服务)

SpringCloud五大组件 Nacos:注册中心Ribbon:负载均衡Feign:远程调用sentinel:服务熔断Gateway:网关 注册中心 Eureka Nacos 负载均衡 Ribbon负载均衡流程 Ribbon的负载均衡策略 RoundRobinRule:简单的…

Linux系统SSH远程管理服务

一、SSH服务介绍 1.1什么是SSH SSH (Secure Shell)是一种安全通道协议,主要用来实现字符界面的远程登录、远程复制等功能。 SSH协议对通信双方的数据传输进行了加密处理,其中包括用户登录时输入的用户口令,SSH为建 立在应用层和传输层基础上的安全协…

1.6 Java全栈开发前端+后端(全栈工程师进阶之路)-前置课程Jdbc编程,使用Java通过Jdbc对数据库进行基础操作

原理图 用java代码实现连接数据库(mysql)的操作 因为数据库连接需要使用到API和URL,下面简单介绍下API和URL的概念, API: Application Programming Interface应用程序编程接口,就是一套类库 Java中的AP…

WSL2-Ubuntu使用Conda配置百度飞浆paddlepaddle虚拟环境

0x00 缘起 本文将介绍在WSL2-Ubuntu系统中,使用Conda配置百度飞浆paddlepaddle虚拟环境中所出现的各种问题以及解决方法,最终运行"run_check()"通过测试。 在WSL2中配置paddlepaddle不像配置Pytorch那样顺滑,会出现各种问题(如:库的文件缺失、不知道如何匹配C…

lua编译器介绍

Lua编译器是将Lua语言编写的源代码转换为可执行代码的工具 一、实现原理 Lua编译器的核心任务是将Lua源代码(纯文本文件)转换为可执行的二进制代码(字节码)。这一过程通常包括词法分析、语法分析、语义分析、中间代码生成、优化以…