大模型-模型预训练-模型参数量计算

news/2024/11/17 3:25:08/

一、说明

  • 当前主流大模型架构为因果解码器架构
  • 以下参数量计算以LLaMA为例
  • 假设解码器有L层、词表大小为V

二、参数量组成部分及计算

1、输入嵌入层【VH】

词表大小为V,每个单次映射到一个H维的向量,且输入嵌入层只有一层,因此有VH个参数

2、多头自注意力层【4LH²】

解码器的每一层都包含一个多头自注意力层,查询、键、值三个组成变换矩阵,1个包含H²个参数,共3H²个参数,同事还需要1个额外的线性变换来将多头自注意力机制的输出拼接成最终的输出,有需要H²个参数,总共需要4LH²个参数

3、前馈网络层【3LHH´】

由三个线性变换组成,中间有一个非线性激活函数,前两个线性变换将输入从H维映射到H´维度,需要2HH´个参数,最后一个线性变换将输出从H´维映射回H维,需要HH´个参数,总共需要3HH´个参数

4、归一化层【2HL+H】

每层解码器包含两个RMSNorm操作,分别用于多头注意力层和前馈网络层的输入进行归一化处理,共有2LH个参数,最后一层也有一个归一化层,需要H个参数

5、输出层【VH】

输出层包含一个线性变换,将解码器的输出映射到词表大小V的维度,使用Softmax归一化后预测下一个单词的概率分布,需要VH个参数

三、计算过程

输入嵌入层VH+多头自注意力层4LH² +前馈网络层3LHH´+归一化层2LH+H +输出层VH
= 2VH + H + L(4H² + 3HH´ + 2H)


http://www.ppmy.cn/news/1531323.html

相关文章

基于SpringBoot+Vue+MySQL的旅游推荐管理系统

系统展示 用户前台界面 管理员后台界面 系统背景 随着社会的快速发展和人民生活水平的显著提高,旅游已成为人们休闲娱乐的重要方式。然而,面对海量的旅游信息和多样化的旅游需求,如何高效地管理和推荐旅游资源成为了一个亟待解决的问题。因此…

[001-03-007].第28节:SpringBoot整合Redis:

6.1.Redis的介绍: 1.Redis 是一个开源(BSD许可)的,内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。2.它支持多种类型的数据结构,如 字符串(strings), 散…

uni-app快速入门

目录 一、什么是 uni-app二、快速创建 uni-app 项目1.创建 uni-app2.运行 uni-app 三、uni-app 相对传统 H5 的变化1.网络模型的变化2.文件类型变化3.文件内代码架构的变化4.外部文件引用方式变化5.组件/标签的变化6.js的变化(1)运行环境从浏览器变成v8引…

单片机初级(持续更新)

单片机是一种单片微型计算机的简称(MCU),采用集成电路技术将有数据处理能力的中央处理器、随机存储器、只读存储器、定时器/计时器、多种IO口与中断系统等功能集成在一块硅片上。 开发板/最小系统板 开发板通常是学习用途,功能齐全&#xff0…

公私域互通下的新商机探索:链动2+1模式、AI智能名片与S2B2C商城小程序的融合应用

摘要:在数字化时代,公私域流量的有效融合已成为企业获取持续增长动力的关键。本文旨在探讨如何通过链动21模式、AI智能名片以及S2B2C商城小程序源码的综合运用,实现公私域流量的高效互通,进而为门店创造巨大商机。通过分析这些工具…

基于QT的C++中小项目软件开发架构源码

描述 基于QT信号槽机制实现类之间的交互调用通信,适用于使用不同枚举作为消息交互的类型场景,支持附带任意参数,代码使用方式参考前一篇文章 特性 代码简洁,不超过100行仅需包含一个头文件Communicator.h,需要通信的…

Java设计模式——工厂模式扩展

5.5 工厂模式扩展 简单工厂配置文件解除耦合 (spring底层类似) 可以通过工厂模式配置文件的方式解除工厂对象和产品对象的耦合。在工厂类中加载配置文件中的全类名,并通过反射技术创建对象进行存储,客户端如果需要对象&#xf…

2024云手机推荐与排行:怎样选择最适合的云手机?

在当前市场上,云手机品牌繁多,既有老牌的稳定产品,也有新晋品牌异军突起。不同品牌的云手机因其配置、性能、功能等方面的差异,带来的使用体验也各不相同。为了帮助大家更好地挑选适合的云手机设备,我们将对市面上一些…