InstructGPT的四阶段：预训练、有监督微调、奖励建模、强化学习涉及到的公式解读

1. 预训练

在这里插入图片描述

1. 语言建模目标函数（公式1）：

$L_1(\mathcal{U}) = \sum_{i} \log P(u_i \mid u_{i-k}, \dots, u_{i-1}; \Theta)$

解释：
- $\mathcal{U} = \{u_1, u_2, \dots, u_n\}$ 是输入的未标注语料（token序列）。
- $k$ 是上下文窗口的大小，即预测当前词 $u_i$ 时，使用前 $k$ 个词（ $u_{i-k}, \dots, u_{i-1}$ ）作为上下文。
- $P(u_i \mid u_{i-k}, \dots, u_{i-1}; \Theta)$ 是模型根据前 $k$ 个词预测 $u_i$ 的条件概率，其中参数 $\Theta$ 是通过训练得到的神经网络参数。
- 通过最大化对数似然，模型被训练以最小化预测和真实词之间的差距，这个过程通常通过随机梯度下降（SGD）进行。

2. Transformer解码器结构（公式2）：

公式2描述了模型的架构，采用了多层的Transformer解码器。Transformer通过自注意力机制来捕捉上下文依赖关系，并对输入序列进行编码。

初始嵌入层：

$h_0 = U W_e + W_p$

解释：
- $(u_{-k}, \dots, u_{-1})$ 是上下文窗口中输入序列的词向量。
- $W_e$ 是词嵌入矩阵，用于将输入的token转换为词向量。
- $W_p$ 是位置嵌入矩阵，提供每个token的位置编码，用于捕捉词序信息。

Transformer块：

$transformer_block ( h l − 1 ) ∀ i ∈ [ 1 , n ] h_l = \text{transformer\_block}(h_{l-1}) \quad \forall i \in [1, n]$

解释：
- $h_l$ 表示第 $l$ 层的Transformer输出。
- 每一层 $h_l$ 是通过前一层 $h_{l-1}$ 经过Transformer块（自注意力和前馈网络）的处理得到的。
- 共有 $n$ 层，每一层都通过类似的操作进行。

输出层：

$\text{softmax}(h_n W_e^T)$

解释：
- $h_n$ 是最后一层的输出，经过词嵌入矩阵的转置 $W_e^T$ 变换后，再通过Softmax函数计算每个词的概率分布。
- 这个概率分布用于预测输出的目标词 $u$ ，Softmax确保输出的各个词的概率和为1。

总结：

该模型采用无监督的方式进行预训练，利用大规模未标注语料数据，通过最大化词序列的条件概率来训练语言模型。
预训练的模型架构基于Transformer解码器，通过多层自注意力机制和位置编码来有效捕捉上下文信息，并使用Softmax输出目标词的概率分布。

2. 有监督微调

在这里插入图片描述

1. 微调任务的目标函数（公式3）：

$\mid x^1, \dots, x^m) = \text{softmax}(h_l^m W_y)$

解释：
- $x^1, \dots, x^m$ 是输入的token序列。
- $h_l^m$ 表示输入序列经过预训练模型（如Transformer）的最后一层输出的激活值（即特征表示）。
- $W_y$ 是用于预测目标标签 $y$ 的线性层的参数矩阵。
- Softmax 函数将线性层的输出转换为每个类的概率分布，用于分类任务中的标签预测。

2. 最大化目标函数（公式4）：

$L_2(C) = \sum_{(x, y)} \log P(y \mid x^1, \dots, x^m)$

解释：
- 这是监督学习的目标函数，模型通过最大化预测标签 $y$ 的对数概率来微调模型参数。
- $C$ 是标注数据集，包含输入序列 $x$ 和相应的标签 $y$ 。
- 目标是最大化所有样本的对数似然，确保模型在监督任务中的准确性。

3. 辅助目标函数（公式5）：

$L_3(C) = L_2(C) + \lambda \ast L_1(C)$

解释：
- 为了提高监督学习的效果，模型还结合了语言建模的辅助目标，即无监督的语言建模损失（ $L_1$ ）和监督任务的损失（ $L_2$ ）相结合。
- $\lambda$ 是用于平衡两个目标的权重参数。
- 这样做的好处是：可以通过语言模型的任务帮助监督任务更好地泛化，同时加快收敛速度。这种辅助目标在之前的研究中已证明可以有效提高性能。

总结：

监督微调阶段，模型利用预训练好的参数，结合带标签的数据来优化预测性能。
通过最大化预测标签 $y$ 的对数概率，模型适应特定任务。
引入语言建模作为辅助任务，有助于提升模型的泛化能力和训练效率。

3. 奖励建模

在这里插入图片描述

这个段落介绍了 奖励模型（Reward Modeling, RM） 在 InstructGPT 模型中的训练方式，具体描述了模型如何从 监督微调模型（SFT） 继续优化以输出奖励分数（reward score），并通过比较（comparison）来训练这个奖励模型。

核心内容解释：

奖励模型的基础
- 奖励模型的训练是基于监督微调模型（SFT）进一步改进的。为了输出奖励，SFT 模型的最后一层（unembedding layer）被移除，留下的是可以根据给定的提示（prompt）和回应（response）输出一个标量的奖励值。
- 为了节省计算资源，他们使用了一个 6B 参数的奖励模型（RM），因为较大规模的 175B 参数奖励模型虽然理论上可能更准确，但实际训练时表现不稳定，且不适合作为 RL 的值函数。
Stiennon et al. (2020) 的方法：
- 数据集：奖励模型通过比较训练，数据集包含两个模型生成的输出（response），并根据这些生成的结果做出比较。
- 损失函数：训练中使用了 交叉熵损失（cross-entropy loss），这些比较的标签是人类标注员根据两者的优劣给出的。交叉熵损失衡量了两个结果中哪一个应该被人类标注员优先选择，实际优化的是两者奖励分数的对数几率（log odds）。
加速比较收集过程：
- 在标注过程中，给标注员展示了 K = 4 到 9 个不同的生成回应，标注员需要对这些生成的结果进行排名。这会生成 $\binom{K}{2}$ 对比较，即每个标注任务中有 K 个回应时，将产生 K 中选取 2 个的组合数的比较对数。比如 $K = 9$ 时，会生成 $\binom{9}{2} = 36$ 对比较。
- 为了避免过度拟合，研究者决定不将所有比较对一起训练（因为不同的比较对之间存在强相关性），而是仅从每个提示中抽取一对比较结果作为一个训练样本。这种方式更加 计算高效，因为对于每个完成的任务只需要一次前向传播（forward pass），而不是处理所有 $\binom{K}{2}$ 的比较对。
奖励模型的损失函数：

奖励模型的损失函数定义如下：
$\text{loss}(\theta) = -\frac{1}{\binom{K}{2}} \mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \left( \sigma \left( r_\theta(x, y_w) - r_\theta(x, y_l) \right) \right) \right]$
- $\sigma(\cdot)$ 是 sigmoid 函数，用于将差值映射到 [0, 1] 区间，用来表示某一结果被标注员认为更优的概率。
- $r_\theta(x, y)$ 是奖励模型对于给定提示 $x$ 和生成的回应 $y$ 所输出的奖励分数。
- $y_w$ 和 $y_l$ 分别是优胜和劣胜的生成结果。
- $D$ 是人类标注员比较的结果数据集。
- $\frac{1}{\binom{K}{2}}$ 是对所有比较的标准化处理。

解释：

损失函数的目标是最大化优胜结果 $y_w$ 比劣胜结果 $y_l$ 更受偏好的概率（通过两者奖励分数差异的 sigmoid 值来实现）。这个函数通过最小化损失来优化奖励模型，使得奖励模型能够更准确地给出与人类标注员偏好一致的分数。

防止过拟合的解释（脚注 5）：
- 如果每一个比较对都被视为一个单独的数据点，那么每个生成的回应可能在训练中会得到 $K - 1$ 次更新，从而导致模型过拟合。而研究人员发现，模型过度训练甚至只需一个 epoch 就会过拟合。为了解决这个问题，他们只对每个提示下的一对回应进行一次前向传播训练，从而避免过拟合。

总结：

奖励模型的训练基于人类反馈，通过比较两个模型生成的回应来进行优化。该训练过程使用了 交叉熵损失函数，优化目标是让奖励模型尽可能地预测出哪个回应更符合人类标注员的偏好。
通过只选取部分比较对进行训练（而不是所有组合对），减少了计算开销，并有效避免了模型过拟合。

4. 强化学习（PPO）

在这里插入图片描述

1. 强化学习（Reinforcement Learning, RL）

在这部分，模型使用了强化学习（RL）进行微调，采用了 PPO（Proximal Policy Optimization） 算法来优化策略。PPO 是一种策略梯度算法，常用于强化学习任务中，通过限制策略更新的步长来提高训练的稳定性。

2. 环境设置

强化学习的环境被设置为一个 多臂老虎机问题（bandit environment），该环境会随机给定提示（prompt），模型需要生成相应的回应。生成的回应会通过奖励模型（reward model）来打分并结束当前回合。

为了防止模型过度优化奖励模型，训练过程中在每个 token 的输出时，加入了 KL 惩罚项，这项惩罚的来源是监督微调模型（SFT, Supervised Fine-Tuned Model）。

3. PPO-ptx 模型

为了提高模型的泛化能力，研究者还尝试将 预训练梯度（pretraining gradients） 与 PPO 的梯度混合，构建了所谓的 PPO-ptx 模型。这种方法可以解决在某些公共 NLP 数据集上性能回退的问题。

他们使用了以下的 目标函数（Objective Function）：

$\text{objective}(\phi) = \mathbb{E}_{(x,y) \sim D_{\pi^{RL}_{\phi}}} \left[ r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}_{\phi}(y \mid x)}{\pi^{SFT}(y \mid x)} \right) \right] + \gamma \mathbb{E}_{x \sim D_{\text{pretrain}}} \left[ \log(\pi^{RL}_{\phi}(x)) \right]$

4. 公式解读

第一部分：PPO 的核心目标

$\mathbb{E}_{(x,y) \sim D_{\pi^{RL}_{\phi}}} \left[ r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}_{\phi}(y \mid x)}{\pi^{SFT}(y \mid x)} \right) \right]$

$\mathbb{E}_{(x,y) \sim D_{\pi^{RL}_{\phi}}}$ 表示在 RL 策略 $\pi^{RL}_{\phi}$ 生成的分布 $D_{\pi^{RL}_{\phi}}$ 上的期望。
$r_\theta(x, y)$ 是奖励模型 $r_\theta$ 对生成的响应 $y$ 的奖励。
$\beta \log \left( \frac{\pi^{RL}_{\phi}(y \mid x)}{\pi^{SFT}(y \mid x)} \right)$ 是 KL 散度惩罚项，惩罚 RL 策略 $\pi^{RL}_{\phi}$ 偏离 SFT 模型 $\pi^{SFT}$ 的程度，其中 $\beta$ 控制 KL 惩罚的权重。

解释：
这部分的目标是最大化模型的奖励，同时通过 KL 惩罚防止策略 $\pi^{RL}_{\phi}$ 与监督微调模型 $\pi^{SFT}$ 偏离过远。惩罚项确保模型在强化学习时不走偏，保持与原本训练目标的相似性。

第二部分：预训练损失

$\gamma \mathbb{E}_{x \sim D_{\text{pretrain}}} \left[ \log(\pi^{RL}_{\phi}(x)) \right]$

$\mathbb{E}_{x \sim D_{\text{pretrain}}}$ 表示在预训练数据分布 $D_{\text{pretrain}}$ 上的期望。
$\log(\pi^{RL}_{\phi}(x))$ 是 RL 策略 $\pi^{RL}_{\phi}$ 生成的结果的对数概率。
$\gamma$ 是预训练损失项的权重，控制预训练数据与强化学习的结合程度。

解释：
这一部分引入了预训练的损失，使得模型能够保持在大规模预训练数据上的表现，防止模型在强化学习过程中完全依赖于奖励模型而失去通用能力。通过设置 $\gamma$ ，我们可以平衡预训练损失和强化学习损失的影响。

5. 策略和符号说明

$\pi^{RL}_{\phi}$ 是在强化学习中学习到的策略，参数为 $\phi$ 。
$\pi^{SFT}$ 是通过监督学习微调得到的策略，它代表了模型在强化学习之前的性能。
$\beta$ 是 KL 惩罚的权重系数，控制 RL 策略和 SFT 策略的偏离程度。
$\gamma$ 是预训练损失的权重系数，控制预训练梯度在 PPO 优化中的作用。

总结：

在这篇文章中，InstructGPT 使用了强化学习中的 PPO（Proximal Policy Optimization） 进行策略优化，同时通过引入 KL 散度惩罚项 来确保 RL 策略与 SFT 策略不过度偏离。此外，预训练损失 通过一个额外的项加入到了目标函数中，以解决在某些 NLP 任务上的性能回退问题。