目录
AdaPipe:动态规划解决显存和GPU在LLM计算中出现气泡问题
0-5表示不同数据
大的方块表示:管道,便于理解了想成GPU
黄色方块表示显存
Stage表示Attention和FFN layer(Projection和MLP)
重计算和分区策略:细化了Attention和FFN layer
Transformer中的管道
AdaPipe:动态规划解决显存和GPU在LLM计算中出现气泡问题
AdaPipe可以根据3D并行性(即张量、数据和管道并行性)优化重计算和分区策略。
张量和数据并行的规模在不同阶段是相同的。
给定一个3D并行策略,我们首先构建一个性能模型来分析时间和内存消耗,其中时间成本是针对内存约束进行优化的。
然后提出一个两级动态规划(DP)算法来优化问题。值得注意的是,在整个DP算法中,分区优化与之前的重计算优化合作,以避免陷入局部最小值。
使AdaPipe能够在不同的集群和配置中处理复杂的大型神经网络。