大模型显存占用计算方法（单卡状态）

大模型显存占用计算方法（单卡状态）

ops/2024/11/14 3:49:34/

参考：https://blog.csdn.net/python122_/article/details/141494273
一个含有1G参数的模型，如果每一个参数都是32bit（4byte），那么直接加载模型就会占用4x1G的显存。
常见的几种精度类型：从一次面试搞懂 FP16、BF16、TF32、FP32
参考：https://zhuanlan.zhihu.com/p/676509123
混合精度训练：
按照训练运行的逻辑来讲：

Step1:优化器会先备份一份FP32精度的模型权重，初始化好FP32精度的一阶和二阶动量（用于更新权重）。
Step2:开辟一块新的存储空间，将FP32精度的模型权重转换为FP16精度的模型权重。
Step3:运行forward和backward，产生的梯度和激活值都用FP16精度存储。
Step4:优化器利用FP16的梯度和FP32精度的一阶和二阶动量去更新备份的FP32的模型权重。
Step5:重复Step2到Step4训练，直到模型收敛。

我们可以看到训练过程中显存主要被用在四个模块上：
模型权重本身（FP32+FP16）
梯度（FP16）
优化器（FP32）
激活值（FP16）

对于llama3.1 8B模型，FP32和BF16混合精度训练，用的是AdamW优化器，请问模型训练时占用显存大概为多少？
解：
模型参数：16（BF16） + 32（PF32）= 48G
梯度参数：16（BF16）= 16G
优化器参数：32（PF32） + 32（PF32）= 64G
不考虑激活值的情况下，总显存大约占用（48 + 16 + 64） = 128G

http://www.ppmy.cn/ops/114867.html

相关文章

dbt snapshot命令及应用示例

dbt snapshot命令及应用示例

DBT是一种功能强大的数据转换工具，它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个关键特性是能够创建快照，这是跟踪数据随时间变化的一种方法。本文带你一起完成创建和使用dbt快照的过程。理解缓慢变化维度缓慢变化维度(scd)是数据仓…

阅读更多...

【LeetCode】289.生命游戏

【LeetCode】289.生命游戏

如何原地对数组进行修改是比较困难的，递归的算法无法做到。那有什么方式能简化吗？可以设计多种数字用于记录细胞的状态，不同的数字记录了不同的时刻和状态，从而简化了题目。 1.题目 2.思想本题题意虽然比较复杂，但是…

阅读更多...

【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器（上）

【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器（上）

系列文章目录【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器（上） 【鸿蒙】HarmonyOS NEXT开发快速入门教程之ArkTS语法装饰器（下） 文章目录系列文章目录前言一、ArkTS基本介绍1、 ArkTS组成2、组件参数和属性2.1、区…

阅读更多...

【BetterBench博士】2024年华为杯E题：高速公路应急车道紧急启用模型 Python代码实现

【BetterBench博士】2024年华为杯E题：高速公路应急车道紧急启用模型 Python代码实现

题目【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛选题分析【BetterBench博士】2024年中国研究生数学建模竞赛 E题：高速公路应急车道紧急启用模型问题分析【BetterBench博士】2024年中国研究生数学建模竞赛 C题：数据驱动…

阅读更多...

Linux Kernel Makefiles 编译标志详解

Linux Kernel Makefiles 编译标志详解

在Linux内核开发中，Makefile文件扮演着至关重要的角色，它指导make命令如何编译和链接内核源代码。Makefile中包含了多种编译标志（flags），这些标志控制着编译、汇编和链接过程的不同方面。本文将详细介绍几种关键的编译…

阅读更多...

1. ZYNQ 2. MPSOC 3. FPGA 4. Vitis 5. 项目

1. ZYNQ 2. MPSOC 3. FPGA 4. Vitis 5. 项目

### 1. 建立Vitis SDK自带的Hello World工程首先，我们需要在Vitis SDK中创建一个基本的Hello World工程。这是学习FPGA开发和ZYNQ MPSOC平台的重要第一步。Hello World工程的主要目的是验证开发环境的正确性以及熟悉基本的编程流程。 #### 步骤： - 打开…

阅读更多...

系统架构设计师大数据架构篇一

系统架构设计师大数据架构篇一

🌐大数据架构大数据处理系统分析 🔍 大数据处理系统三大挑战 🚀 非结构化数据处理：如何处理非结构化和半结构化数据。复杂性与不确定性：大数据复杂性、不确定性特征描述的刻画方法和大数据的系统建模。异构性影响&…

阅读更多...

Java中的事件（动作监听-ActionListener）

Java中的事件（动作监听-ActionListener）

（一）、ActionListener接口 ActionListener接口用于处理用户界面上的动作事件，例如：按钮点击、菜单选择等。实现ActionListener接口需要重写actionPerformed(ActionEvent e)方法，该方法会在动作发生时被调用。 &#…

阅读更多...

最新文章