大模型训练和部署的关键技术

自2016年至今，模型大小每18个月增长40倍，自2019年到现在，更是每18个月增长340倍。

然而相比之下，硬件增长速度较慢，自2016年至今，GPU的性能增长每18个月1.7倍，模型大小和硬件增长的差距逐渐扩大。显存占用大、算力消费大、成本高昂等瓶颈严重阻碍AIGC行业的快速发展。在此背景下，潞晨科技创始人尤洋认为，分布式训练势在必行。

图：潞晨科技创始人尤洋演讲

基础大模型结构为模型训练提供了基础架构

其一、Google首创的Transformer大模型，是现在所有大模型最基础的架构。现在Transformer已经成为除了MLP、CNN、RNN以外第四种最重要的深度学习算法架构。

其二、Google发布的首个预大模型BERT，从而引爆了预练大横型的潮流和的势，BERT强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言横型进行浅层拼接的方法进行预认训练，而是采用新的masked language model(MLM)，以致能生成深度的双向语言表征。

其三、ViT Google提出的首个使用Transformert的视觉大模型，ViT作为视觉转换器的使用，而不是CNN威混合方法来执行图像任务，作者假设进一步的预认训练可以提高性能，因为与其他现有技术模型相比，ViT具有相对可扩展性。

其四、Google将Transformer中的Feedforward Network(FFN)层替换成了MoE层，并且将MoE层和数据并行巧妙地结合起来，在数据并行训练时，模型在训练集群中已经被复制了若干份，通过在多路数据并行中引入Al-to-Al通信来实现MoE的功能。

在这些基础大模型结构之上，过去这些年，在大模型的发展历程中，出现了几个具有里程碑意义性的大模型包括GPT-3、T5、Swin Transformer、Switch Transformer。

GPT-3：OpenAI发布的首个百亿规模的大模型，应该非常具有开创性意义，现在的大模型都是对标GPT-3，GPT-3依旧延续自己的单向语言模型认训练方式，只不过这次把模型尺寸增大到了1750亿，并且使用45TB数据进行训练。

T5（Text-To-Text Transfer Transformer）：Google T5将所有NLP任务都转化成Text-to-Text(文本到文本)任务。它最重要作用给整个NLP预训型领城提供了一个通用框架，把所有任务都转化成一种形式。

Swin Transformer：微软亚研提出的Swin Transformer的新型视觉Transformer，它可以用作计算机视的通用backbone。在个领域之同的差异，例如视觉实体尺度的巨大差异以及与文字中的单词相比，图像中像素的高分率，带来了使Transformer从语言适应视觉方面的挑战。

超过万亿规模的稀疏大模型Switch Transformer：能够训练包含超过一万亿个参数的语言模型的技术，直接将参数量从GPT-3的1750亿拉高到1.6万亿，其速度是Google以前开发的语言模型T5-XXL的4倍。

另外，更具里程碑意义的大模型，在Pathways上实现的大预言模型PaLM。

分布式框架Pathways：Pathways的很多重要思想来源于现有系统，包括用于表达和执行TPU计算的XLA、用于表征和执行分布式CPU计算的TensorFlow图和执行器、基于Python编程框架的JAX以及TensorFlow APL，通过有效地使用这些模块，Pathways不需要对现有横型进行很多改动就能运行。

PaLM模型：PaLM吸引人眼球的是该模型具有5400亿参数以及果用新一代AI框架Pathways训练。模型结构也给出了很多方面优化，这些技术优化工作汲取了现有突出的研究成果，具体包括SwiGLU激活函数代替ReLU、层并行技术(Parallel Layers)、多查询注意力(Multi-Query Attention)，旋转位置编码(RoPE)、共享输入和输出词嵌入、去掉偏置参数(No Biases)等。