分布式训练相关问题总结

1. 训练大语言模型存在哪些问题？

计算资源需求：训练大型语言模型需要大量的计算资源，包括高端 GPU、大量的内存和高速存储器。这可能限制了许多研究人员和组织的训练能力，因为这些资源通常很昂贵。
数据需求：训练大型语言模型需要大规模的数据集，这些数据集通常需要大量的标注和清洗工作。获取高质量的数据可能是一项困难和昂贵的任务。
长时间训练：训练大型语言模型需要大量的时间。特别是对于巨型模型，训练可能需要数周甚至数月的时间，这增加了实验的时间和成本。
认知偏差和歧视性**：** 如果训练数据集存在偏差或歧视性，大型语言模型可能会继承这些问题，并在生成文本时表现出类似的偏见。

2. 什么是点对点通信？

点对点通信（Peer-to-Peer Communication）是一种网络通信模式，其中两个或多个计算机或设备之间直接进行通信，而不需要通过中央服务器或集中式系统。在点对点通信中，每个参与者都可以充当客户端和服务器，能够直接与其他节点通信、交换信息或共享资源。

这种通信模式与传统的客户端-服务器模型不同，后者在网络中有一个中心服务器负责处理和转发所有请求和数据。而点对点通信模式中，参与者之间能够直接建立连接，相互传输信息或资源，使得网络更为分散和去中心化。

3. 什么是集体通信？

集体通信（Collective Communication）是指一组计算节点或处理单元之间进行协作、交换信息或执行通信操作的过程。这种通信形式涉及到多个节点之间的集体参与，而不仅仅是点对点的通信。它可以用于并行计算、分布式系统和群集计算等领域，以便在多个节点之间协调和管理数据的传输、处理和同步操作。

集体通信常见的操作包括广播、散射、汇总、规约和全局同步等。

4. 什么是数据并行？

所谓数据并行，就是由于训练数据集太大；因此，将数据集分为N份，每一份分别装载到N个GPU节点中，同时，每个GPU节点持有一个完整的模型副本，分别基于每个GPU中的数据去进行梯度求导。然后，在GPU0上对每个GPU中的梯度进行累加，最后，再将GPU0聚合后的结果广播到其他GPU节点。

5. 数据并行如何提升效率？

数据并行是在多个处理单元上同时处理数据的策略，它可以通过一些方法来提高效率：

增加处理单元数量：增加处理单元（如 GPU 或 CPU）的数量可以加速数据并行计算，因为更多的处理单元可以同时处理更多的数据子集。
批处理训练：使用批处理训练可以提高数据并行的效率。通过合并多个数据子集形成批次，可以减少通信和同步开销，同时更好地利用处理单元的并行计算能力。
异步更新：对于参数更新，可以采用异步更新的策略。不同的处理单元可以在计算完成后立即更新自己的参数，而不必等待其他处理单元完成计算。虽然这可能会导致一定程度的参数不一致，但可以提高整体的训练速度。
模型和数据并行结合：在一些情况下，可以结合使用模型并行和数据并行来提高效率。将模型分布到多个处理单元上，同时每个处理单元处理不同的数据子集，可以有效地利用多个处理单元的计算能力。
减少通信开销：优化通信机制可以降低处理单元之间的通信开销。采用高效的通信协议或减少同步频率等方法可以提高数据并行的效率。
负载均衡：确保数据在不同处理单元间的分配是均衡的，避免某些处理单元负载过重或过轻，以充分利用所有的计算资源。

6. 什么是流水线并行？

所谓流水线并行，就是由于模型太大，无法将整个模型放置到单张GPU卡中；因此，将模型的不同层放置到不同的计算设备，降低单个计算设备的显存消耗，从而实现超大规模模型训练。例如，模型共包含四个模型层（如：Transformer层），被切分为三个部分，分别放置到三个不同的计算设备。即第 1 层放置到设备 0，第 2 层和第三 3 层放置到设备 1，第 4 层放置到设备 2。

7. 什么是张量并行 (intra-layer)？

和流水线并行类似，张量并行也是将模型分解放置到不同的GPU上，以解决单块GPU无法储存整个模型的问题。和流水线并行不同的地方在于，张量并行是针对模型中的张量进行拆分，将其放置到不同的GPU上。

模型并行是不同设备负责单个计算图不同部分的计算。而将计算图中的层内的参数（张量）切分到不同设备（即层内并行），每个设备只拥有模型的一部分，以减少内存负荷，我们称之为张量模型并行。

8. 数据并行 vs 张量并行 vs 流水线并行

1、数据并行（Data Parallelism）：

概念： 数据并行是指将整个模型复制到每个处理单元上，不同处理单元处理不同的数据子集。每个处理单元独立计算，并通过同步更新模型参数来实现训练。
适用场景： 数据并行适用于大型模型和数据集，特别是在深度学习中。每个处理单元负责计算不同数据子集上的梯度，然后同步更新模型参数。
优势： 易于实现，适用于大规模数据和模型。

2、张量并行（Tensor Parallelism）：

概念： 张量并行是指将模型分解成多个部分，每个部分在不同处理单元上进行计算。通常，这涉及到在层与层之间划分模型，并在不同的 GPU 或处理单元上执行这些部分。
适用场景： 张量并行适用于非常大的模型，其中单个 GPU 的内存容量无法容纳整个模型。它允许将模型的不同部分分配到不同的处理单元上，从而扩展模型的规模。
优势： 适用于大型模型的规模扩展，可用于解决内存限制问题。

3、流水线并行（Pipeline Parallelism）：

概念： 流水线并行是指将模型的不同层分配到不同的处理单元上，并通过将不同层的输出传递给下一层来实现计算。每个处理单元负责一个模型层的计算。
适用场景： 流水线并行适用于深层次的模型，其中各层之间的计算相对独立。它可以提高模型的整体计算速度，特别是在层之间存在较大的计算延迟时。
优势： 适用于深层次模型，减少整体计算时间。

这三种并行策略通常可以结合使用，具体取决于应用的场景和问题的性质。在深度学习等领域，常常会使用数据并行和张量并行相结合的方式，以提高模型的训练速度和规模。

9. 什么是 3D并行？

3D并行，或者混合并行 (Hybrid Parallelism)，则是将以上三种策略结合起来使用，达到同时提升存储和计算效率的目的。Megatron-Turing NLG 就是先将 Transformer block 使用流水线和张量 2D 并行，然后再加上数据并行，将训练扩展到更多的GPU。

10. 想要训练1个LLM，如果只想用1张显卡，那么对显卡的要求是什么？

显卡显存足够大，nB的模型微调一般最好准备20n GB以上的显存。

显存大小：大型语言模型需要大量的显存来存储模型参数和中间计算结果。通常，至少需要 16GB 或更多的显存来容纳这样的模型。对于较小的模型，8GB 的显存也可能足够。
计算能力：针对大型神经网络模型，较高的计算能力通常可以加快训练速度。通常情况下，NVIDIA 的 RTX 系列或者 A/H系列的显卡具有较高的性能和计算能力。这些显卡提供了更多的 CUDA 核心和更高的计算能力，能够更快地处理大型模型。
带宽和速度：显卡的显存带宽和速度也是一个考虑因素。较高的内存带宽可以更快地从内存读取数据，对于大型模型的训练非常重要。
兼容性和优化：良好的软硬件兼容性以及针对深度学习训练任务的优化也是考虑的因素。确保显卡与所选深度学习框架兼容，并且可以利用框架提供的优化功能。

11. 如果显卡的显存不够装下一个完整的模型呢？

最直观想法，需要分层加载，把不同的层加载到不同的GPU上（accelerate的device_map）也就是常见的PP，流水线并行。

12. 显存优化技术有哪一些，都有什么特点？

模型裁剪（Model Pruning）：
- 特点： 去除模型中不必要的参数或结构，减小模型大小和内存占用。
- 优点： 可以降低模型的存储需求，适用于显存不足的情况。
模型压缩（Model Compression）：
- 特点： 使用量化、剪枝等方法减小模型大小，减少显存占用。
- 优点： 降低模型存储空间，适用于显存限制的场景。
混合精度计算（Mixed Precision Computing）：
- 特点： 使用较低精度（如半精度浮点数）进行计算，减少显存使用。
- 优点： 可以在一定程度上减少显存需求，提高计算效率。

13. 常见的分布式训练框架哪一些，都有什么特点？

1、Megatron-LM

Megatron 是由 NVIDIA 深度学习应用研究团队开发的大型 Transformer 语言模型，该模型用于研究大规模训练大型语言模型。

Megatron 支持transformer模型的模型并行（张量、序列和管道）和多节点预训练，同时还支持 BERT、GPT 和 T5 等模型。

2、DeepSpeed

DeepSpeed是微软的深度学习库，具备以下优势：

训练/推理具有数十亿或数万亿个参数的密集或稀疏模型
实现出色的系统吞吐量并有效扩展到数千个 GPU
在资源受限的 GPU 系统上训练/推理
为推理实现前所未有的低延迟和高吞吐量
以低成本实现极致压缩，实现无与伦比的推理延迟和模型尺寸缩减

3、FairScale

FairScale（由 Facebook 研究）是一个用于高性能和大规模训练的 PyTorch 扩展库。 FairScale 的愿景如下：

可用性：用户应该能够以最小的认知代价理解和使用 FairScale API。
模块化：用户应该能够将多个 FairScale API 无缝组合为训练循环的一部分。
性能：airScale API 在扩展和效率方面提供了最佳性能。

FairScale 支持Fully Sharded Data Parallel (FSDP)，这是扩展大型神经网络训练的推荐方式。

4、ParallelFormers

Parallelformers 是一个基于 Megatron-LM 的库。它与 Huggingface 库很好地集成在一起。 Huggingface 库中的模型可以用一行代码并行化。目前它只支持推理。

from transformers import AutoModelForCausalLM, AutoTokenizer
from parallelformers import parallelize
model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neo-2.7B")
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-2.7B")parallelize(model, num_gpus=2, fp16=True, verbose='detail')

5、ColossalAI

Colossal-AI提供了一组并行组件，可以用来实现定制化的分布式/并行训练，包含以下并行化策略和增强功能：

Data Parallelism
Pipeline Parallelism
1D，2D，2.5D，3D Tensor Parallelism**
Sequence Parallelism
Zero Redundancy Optimizer (ZeRO)
Heterogeneous Memory Management (PatrickStar)
For Inference**Energon-AI**

6、Alpa

Alpa是一个用于训练和服务大规模神经网络的系统，具备如下特点：

自动并行化：Alpa基于数据、运算符和管道并行机制自动化地实现单设备代码在分布式集群并行化。
完美的表现：Alpa 在分布式集群上实现了数十亿参数的训练模型的线性缩放。
与机器学习生态系统紧密集成：Alpa由开源、高性能和生产就绪的库（如 Jax、XLA 和 Ray）提供支持。

7、Hivemind

Hivemind是一个在互联网上使用 Pytorch 进行去中心化深度学习的库。它主要服务场景是在来自不同大学、公司和志愿者的数百台计算机上训练一个大型模型。

其主要特点是：

没有主节点的分布式训练：分布式哈希表允许连接分散网络中的计算机。
容错反向传播：即使某些节点没有响应或响应时间过长，前向和后向传递也会成功。
分散的参数平均：迭代地聚合来自多个工作人员的更新，而无需在整个网络中同步（论文）。
训练任意大小的神经网络：它们的部分层通过分散的专家混合（论文）分布在参与者之间。

8、OneFlow

OneFlow 是一个深度学习框架，旨在实现用户友好、可扩展和高效。使用 OneFlow，很容易：

使用类似 PyTorch 的 API 编写模型
使用 Global View API 将模型缩放到 n 维并行/分布式执行
使用静态图编译器加速/部署模型。

9、Mesh-Tensorflow

根据 github 页面：Mesh TensorFlow (mtf) 是一种用于分布式深度学习的语言，能够指定广泛的分布式张量计算类别。这里的“Mesh”是指处理器或计算设备的互连网络。