ZeRO论文阅读

server/2024/9/24 5:06:27/

一.前情提要

1.本文理论为主,并且仅为个人理解,能力一般,不喜勿喷

2.本文理论知识为成体系

3.如有需要,以下是原文,更为完备

Zero 论文精读【论文精读】_哔哩哔哩_bilibili

二.正文

1.前言

①为什么用该技术:当模型很大,计算单元存储不下的时候,将其分散开来,需要的时候调用即可,该技术则是应用于此

②简介:ZeRO是一种用于大规模深度学习模型训练的优化技术,旨在解决在训练大型模型时遇到的内存限制和通信开销等问题(简单理解:加速transformer

2.补充说明

①模型并行:

模型并行是一种用于训练大型神经网络的分布式计算策略,旨在将模型参数分割分配到不同的设备上进行计算。这种方法有助于克服单个设备内存的限制,并提高训练大型模型的效率。

②通讯

GPU通信指的是在多个GPU之间进行数据传输通信的过程。在深度学习中,通常会使用多个GPU来加速训练过程,这就需要在GPU之间有效地传输模型参数、梯度和其他相关数据。

③混合精度和半精度是深度学习中用于提高训练效率性能的技术,通过减少模型参数和计算过程中的精度要求来降低计算成本。以下是对混合精度和半精度的解释:

1. 半精度

半精度是一种表示数值的方法,使用16位浮点数来存储数据。

2. 混合精度

混合精度是一种结合了不同精度的计算和存储方案。

3.ZeRO-dp优化的细节

内存用在什么地方:①保存模型②保存梯度③保存优化器里的状态④中间值)

①核心算法是切开放在不同地方---->和参数服务器一样

②使用半精度来训练(fp16)但权重是fp32(避免一堆极小数字累加,可能仍然为0)再转化为fp16

③对于每个w状态只拷贝份,避免重复-------->参与服务器的思想-------->内存使用下降

4.ZeRO-R优化的细节

①不同于计算来换空间,这里是带宽来换空间

②对于额外的临时缓存:设置固定大小

③对于内存碎片:不断的整理

5.具体实施(假定为两块卡,一个层)

①Pos(zero1)

②Pg(zero2)

③Pp(zero3)

使用后呈现的结果:

6.如何降低中间变量

①切分层(主要作用于模型并行)

PA:

②buffer

类比:在发送数据上,等待足够多的再发送,就像把包裹塞满卡车

③内存整理

(上述都是使用在上层

7.在megantron上

①实验主图

②超线性性能增长


http://www.ppmy.cn/server/13868.html

相关文章

JRT多服务器同步程序

之前的JRT只部署在一个服务器,实际运用可能会有数台、数十台、或者更多服务器。那么多台服务器就需要程序同步机制。这里借助Rsync同步,但是有个问题是Rsync同步jar之后他不知道是否需要重启站点,为此实现java控制台驱动Rsync,重定…

解决“ImportError: DLL load failed while importing _rust: 找不到指定的程序的问题

运行 scrapy startproject wikiSpider 报错:ImportError: DLL load failed while importing _rust: 找不到指定的程序。 经过尝试 可以更换Python解释器版本来解决 1、点击crtlalts打开设置 点击项目>解释器 选择3.11解释器 (我原来报错用的3.9的解…

【MySQL 所遇问题】

【MySQL 所遇问题】 总结:Error Code: 1064.You have an error in your SQL syntax报错解释1:报错解释2处理过程 Error Code:1366 - Incorrect string value:报错解释处理过程 总结: Error Code: 1064 不可见字符。 某些文本处理…

力扣HOT100 - 104. 二叉树的最大深度

解题思路: class Solution {public int maxDepth(TreeNode root) {if (root null) return 0;return Math.max(maxDepth(root.left), maxDepth(root.right)) 1;} }

信息收集

信息收集 域名的相关知识 域名的技术指的是一个域名由多少级组成,域名的各个级别被“.”分开,简而言之,有多少个点就是几级域名 顶级域名:.com(商)、.edu(教)、.gov(政)、.mil(军) 一级域名:qq.com 二级域名&#xf…

全世界IT人苦竞业久矣!美国FTC宣布全面废除员工竞业协议

2023 年 1 月,美国联邦贸易委员会(FTC)发布声明称,拟在全国范围禁止用人单位与雇员签订竞业禁止性条款。当地时间 4 月 23 日,FTC 宣布全面禁止所有员工(包括高级管理人员)签署新的竞业禁止协议…

更新至2022年上市公司数字化转型数据合集(四份数据合集)

更新至2022年上市公司数字化转型数据合集(四份数据合集) 一、2000-2022年上市公司数字化转型数据(年报词频、文本统计) 二、2007-2022年上市公司数字化转型数据(年报和管理层讨论)(含原始数据…

公开课学习——基于索引B+树精准建立高性能索引

文章目录 遇到慢查询怎么办?—— 创建索引联合索引的底层的数据存储结构长什么样? mysql脑图 阿里开发手册 遇到慢查询怎么办?—— 创建索引 不用索引的话一个一个找太慢了,用索引就快的多。 假如使用树这样的结构建立索引&#x…