揭秘GLM-130B爆火秘诀：颠覆性自回归填空和二维位置编码的训练黑科技

GLM（通用语言模型）的训练过程确实复杂，尤其是涉及到其独特的预训练目标和架构调整。让我来详细解释一下GLM的训练过程。

1. 模型架构简介

GLM-130B 是基于 Transformer 架构的双语（中文和英文）语言模型，拥有 1300 亿个参数。与常见的 GPT 模型不同，GLM 采用了一种独特的自回归空白填充预训练目标，以更好地捕捉上下文之间的关系。

2. 预训练过程概述

GLM 的预训练过程可以分为三个主要部分：

输入文本的构成
模型的输入和输出
注意力掩码矩阵的设计

输入文本的构成

随机掩码：首先对句子中的一些词汇或片段进行随机掩码处理，即在文本中随机选择一段词汇并用特殊的 [MASK] 标记进行替换。
分段：被掩码的文本分为两个部分：
- Part A：包含 [MASK] 标记的句子部分。
- Part B：被掩码的片段的原始 token，即这些被掩码部分在未被掩码前的真实内容。
泊松分布：掩码片段的长度是根据泊松分布随机生成的，这使得每个掩码片段的长度有一定的随机性。

模型的输入和输出

拼接：将 Part A 和 Part B 拼接在一起形成模型的输入。在这个过程中，为了区分 Part A 和 Part B，模型使用了特殊标记 [S] 来分隔这两部分内容。
二维位置编码：
- 位置1：在位置编码上，Part A 的位置编码从 0 递增，而 Part B 的位置编码是被掩码的片段在原句子中的位置编码。
- 位置2：在第二个位置编码上，Part A 的位置始终为 0，而 Part B 的每个片段内部位置编码是自增的。

注意力掩码矩阵设计

Part A（双向注意力）：在 Part A 部分，GLM 使用双向注意力机制，允许当前 token 同时关注句子中之前和之后的 token。这种双向注意力机制可以帮助模型更好地理解句子中词汇之间的依赖关系。
Part B（单向注意力）：在 Part B 部分，模型使用单向注意力机制，即每个 token 只能关注到之前的 token，这更像是传统的自回归生成模型中的做法。

3. GLM的独特改进

在基于 Transformer 架构的基础上，GLM 做了几个关键的改进：

Layer Normalization 和 Residual Connection 的顺序调整：传统 Transformer 中的 Layer Normalization 和 Residual Connection 顺序被调整，以提高模型的训练稳定性。
单一线性层进行输出 token 预测：模型的输出层采用了单一线性层来预测 token，相较于传统的多层结构，这种设计可能更为简洁高效。
ReLU 替换为 GeLU：激活函数由 ReLU 替换为 GeLU（高斯误差线性单元），这是一种更平滑的激活函数，有助于提升模型的训练效果。

4. 其他优化技术

自回归空白填充目标：GLM 通过随机掩盖连续的文本区间，并对这些区间进行自回归预测，以此作为其主要的预训练目标。这种方法与传统的自回归语言模型目标有些类似，但能够更好地利用双向注意力机制。
两种掩码标识符：GLM-130B 使用了两种掩码标识符 [MASK] 和 [gMASK]，分别用于短文和长文的生成任务。
旋转位置编码（RoPE）：采用了一种称为旋转位置编码（RoPE）的技术，这种技术能够更好地处理长序列文本。
DeepNorm 层规范化：为了改善模型的训练效果，GLM 还采用了 DeepNorm 层规范化技术。
高斯误差 GELU：使用了高斯误差 GELU 激活函数，这种函数比传统的 ReLU 更适合深层神经网络的训练。

5. 训练细节

模型层数与维度：GLM-130B 模型拥有 70 层 Transformer，隐藏层维度为 12288，最大序列长度为 2048。
分词器：采用了基于 icetk 的双语分词器，具有 150,000 个标识符，可以处理中英文双语的文本。

以上是 GLM-130B 的详细训练过程和模型设计的解释。GLM 的独特之处在于它结合了双向注意力和自回归生成能力，使得它在处理复杂的自然语言任务时表现更加出色。

二维位置编码是 GLM 模型的一项关键设计，它通过两种不同的方式对输入的序列进行编码，从而帮助模型更好地理解上下文中的依赖关系。让我们详细解析一下这两种位置编码方式。

位置1编码

Part A（含有 [MASK] 的部分）：
- 位置编码从 0 开始，按照顺序逐渐递增。也就是说，Part A 的第一个 token 位置编码为 0，第二个为 1，以此类推。这种递增的编码方式类似于 Transformer 中的标准位置编码方法。
Part B（被掩码的片段，原始 token 的部分）：
- Part B 的位置编码与其在原句子中的位置对应。例如，假设一个句子的第5到第7个词被掩码了，这个被掩码的片段在 Part B 中会保留原来在句子中的位置编码（比如，第5个词的位置编码仍然是 5，第6个词的位置编码是 6）。这种编码方式确保了模型在预测被掩码部分时能够知道这些词在原始句子中的具体位置，从而更好地理解上下文信息。

位置2编码

Part A：
- 在这个位置编码中，Part A 的所有 token 位置编码都被设为 0。这意味着无论 Part A 中的 token 是第几个，它们的这个位置编码值都是 0。这种设计让模型能够专注于 Part B 的位置信息，而不需要在 Part A 中计算具体的位置信息。
Part B：
- Part B 内的每个片段的 token 都有独立的、自增的编码。具体来说，虽然这些 token 在原始句子中可能有不同的位置，但在 Part B 中，每个片段会从 0 开始递增。例如，如果一个掩码片段包含 3 个词，那么这三个词在 Part B 中的第二个位置编码会是 0、1、2。这个编码方式在每个片段内部建立了一种相对的位置信息，帮助模型理解片段内部的顺序结构。

总结

位置1：提供了全局的位置信息，其中 Part A 是标准递增的顺序，而 Part B 保留了原始句子中的位置信息。
位置2：简化了 Part A 的位置信息（都为 0），而在 Part B 内部通过递增编码确保模型可以感知片段内的顺序。

通过这种二维位置编码的设计，GLM 模型可以同时捕捉到句子的全局结构和被掩码片段的局部顺序信息，从而增强了模型的上下文理解能力和预测准确性。

为了帮助你更好地理解 GLM 模型的训练过程，下面用一个具体的例子来说明该过程的各个步骤，尤其是如何利用二维位置编码和自回归空白填充目标进行训练。

假设的输入句子

我们以一个简单的句子为例：

输入句子：The quick brown fox jumps over the lazy dog.

1. 掩码处理

在预训练过程中，GLM 会随机选择一部分句子进行掩码处理。假设模型选择了 “brown fox” 这个片段进行掩码：

Part A（带掩码的部分）：

The quick [MASK] jumps over the lazy dog.

Part B（被掩码的片段原始内容）：
```
brown fox
```

2. 输入文本的构成

模型将 Part A 和 Part B 拼接在一起，并用特殊的 [S] 标记将两部分分隔开。拼接后的输入如下：

The quick [MASK] jumps over the lazy dog. [S] brown fox

3. 二维位置编码

接下来，模型会对拼接后的序列进行二维位置编码。

位置1编码（全局位置信息）：

Part A：

The(0) quick(1)   jumps(3) over(4) the(5) lazy(6) dog(7).

Part B：
```
brown(2) fox(3)
```
这里，Part B 的位置编码保留了它们在原始句子中的位置，即 “brown” 对应第2个位置，“fox” 对应第3个位置。

位置2编码（局部位置信息）：

Part A：
```
The(0) quick(0)   jumps(0) over(0) the(0) lazy(0) dog(0).
```
在位置2编码中，Part A 的所有 token 的位置编码都是 0。
Part B：
```
brown(0) fox(1)
```
这里，Part B 的位置编码是片段内自增的，从 0 开始递增。即 “brown” 的位置编码是 0，而 “fox” 的位置编码是 1。

4. 注意力掩码

在训练过程中，模型会根据这些编码和序列设计注意力掩码矩阵。

Part A：由于采用双向注意力机制，所有的 token 都可以相互关注，既可以看到前面的 token，也可以看到后面的 token。
Part B：在 Part B 中，模型采用单向注意力机制。每个 token 只能看到它之前的 token，这类似于传统的自回归模型，这样可以更好地预测下一个 token。