深度学习笔记之BERT(三)RoBERTa

深度学习笔记之RoBERTa

引言
- 回顾：BERT的预训练策略
- RoBERTa训练过程分析
- - 静态掩码与动态掩码的比较
  - 模型输入模式与下一句预测
  - 使用大批量进行训练
  - 使用Byte-pair Encoding作为子词词元化算法
  - 更大的数据集和更多的训练步骤
- RoBERTa配置

引言

本节将介绍一种基于 $\text{BERT}$ 改进优化的预训练方法—— $\text{RoBERTa}$ 。

回顾：BERT的预训练策略

$\text{BERT}$ 的预训练策略包含两个：

掩码语言模型训练 $(\text{Masked Language Model,MLM})$ ：将句子中一部分词语进行掩码标记，即使用 $[\text{MASK}]$ 对被掩码的词语进行替换。并将掩码部分的长度控制在总句子长度的 $15$ %。对于一个已被预期处理的示例句子：
$[[\text{CLS}],Paris,is,a,beautiful,city,[\text{SEP}],I,love,Paris]$
掩码标记后的结果示例为：
$[[\text{CLS}],Paris,is,a,[\text{MASK}],city,[\text{SEP}],I,love,[\text{MASK}]]$
即便在 $\text{BERT}$ 中使用80-10-10规则对 $\text{BERT}$ 的预训练进行泛化，但实际上它依然是静态掩码：这些工作均是在数据预处理部分执行的，在训练过程中，每个 $[\text{MASK}]$ 部分在句子中的位置是固定的。
下句预测 $(\text{Next Sentence Prediction,NSP})$ ：样本集是由两个连接的文档片段 $\text{Segment-1,Segment-2}$ 组成，并以 $50$ %的概率：
- 在同一文档中连续采样；
- 不同的文档中采样；
并对采样结果 $\text{Segment-1,Segment-2}$ 对应的如下格式中：
$[[\text{CLS}],\text{Segment-1},\text{[SEP]},\text{Segment-2},\text{[SEP]}]$
$[\text{CLS}]$ 对应的 $\text{BERT}$ 输出 $\mathcal R_{\text{[CLS]}}$ 使用 $\text{Softmax}$ 进行二分类(有关联/无关联)任务。

RoBERTa_23">RoBERTa训练过程分析

静态掩码与动态掩码的比较

对于 $\text{BERT}$ 这种现象， $\text{RoBERTa}$ 先采用复制数据的方法进行补救：

将一个句子复制 $10$ 份，并将 $10$ 个句子进行随机掩码标记：
$\begin{aligned} & \mathcal S_1:[[\text{CLS}],Paris,is,a,[\text{MASK}],city,[\text{SEP}],I,love,[\text{MASK}]] \\ & \mathcal S_2:[[\text{CLS}],Paris,[\text{MASK}],a,beautiful,city,[\text{SEP}],I,love,Paris] \\ & \quad \vdots \\ & \mathcal S_{10}:[[\text{CLS}],[\text{MASK}],is,a,beautiful,[\text{MASK}],[\text{SEP}],I,love,Paris] \end{aligned}$
对模型进行 $\text{40 Epoch}$ 的全数据遍历训练，在每个 $\text{Epoch}$ 训练中，句子被掩盖标记都不同：
$\begin{aligned} & \text{Epoch 1:} \quad \mathcal S_1 \\ & \text{Epoch 2:} \quad \mathcal S_2 \\ & \quad \vdots \\ & \text{Epoch 10:} \quad \mathcal S_{10} \\ & \text{Epoch 11:} \quad \mathcal S_{1} \\ & \text{Epoch 12:} \quad \mathcal S_{2} \\ & \quad \vdots \\ & \text{Epoch 40:} \quad \mathcal S_{10} \\ \end{aligned}$
这相当于每一种 $\text{MASK}$ 模式被执行了 $4$ 次。虽然这种方法起到很好的泛化作用，但其本质上依然是静态掩码。

而动态掩码并没有在预处理阶段对数据进行 $\text{MASK}$ ，而是将数据导入模型过程中进行随机 $\text{MASK}$ 。这与上面复制数据的方法相比，它的泛化性更强。因为尤其在训练的 $\text{Epoch}$ 较大时，静态掩码由于会使同一份掩码结果训练多次，导致在训练过程中机械地记住这个规律。

下面是原文中静态掩码与动态掩码在同一任务中的对比情况。在一些任务中，动态掩码的效果略优于静态掩码。
静态vs动态

模型输入模式与下一句预测

$\text{BERT}$ 中的 $\text{NSP}$ 任务旨在句子层面有更优秀的理解，因此 $\text{RoBERTa}$ 针对 $\text{NSP}$ 任务设计了几种训练格式，来验证 $\text{NSP}$ 策略是否有效：

$\text{Segment-pair +NSP:}$ 原始 $\text{BERT}$ 使用的模式，其中每个段落 $(\text{Segment})$ 中可能包含多个句子 $(\text{Sentence})$ ，但 $\text{Token}$ 总长度小于 $512$ 。
$\text{Sentence-pair + NSP:}$ 将输入段落对改为句子对，正负样本的采样方式分别是从文档中连续采样和文档中单独采样。由于输入句子对 $\text{Token}$ 长度明显小于 $512$ ，因而通过增加 $\text{Batch size}$ 使 $\text{Token}$ 总量与 $\text{Segment-pair}$ 相似，并保留了 $\text{NSP}$ 策略。
$\text{Full-sentence:}$ 从一个/多个文档中采样出连续的完整句子， $\text{Token}$ 总长度不超过 $512$ ，并且允许超出文档边界。超出文档边界是指：当采样达到一个文档的末尾时，可以从下一个文档中继续进行采样作为该输入的一部分，但需要在文档之间加入一个额外分隔符，并且该实验删除了 $\text{NSP}$ 策略。
$\text{Doc-sentence:}$ 与 $\text{Full-sentence}$ 采样方式相似，但是不允许超出文档边界。相比于 $\text{Full-sentence}$ ，它的 $\text{Token}$ 长度有可能偏少，因此同样通过增加 $\text{Batch size}$ 使 $\text{Token}$ 总量与 $\text{Full-sentence}$ 相似，并同样删除了 $\text{NSP}$ 策略。

下面是原文对四种训练格式在若干任务中的效果：
4-method

比较使用 $\text{NSP}$ 策略的 $\text{Segment-pair}$ 和 $\text{Sentence-pair}$ 格式，发现使用 $\text{Segment}$ 效果明显由于 $\text{Sentence}$ ，原因可能是模型很难从单句中学习到长依赖关系。
对使用 $\text{NSP}$ 策略和未使用 $\text{NSP}$ 的角度进行比较，发现：删除 $\text{NSP}$ 策略能够略微提高下游任务的性能
$\text{Doc-sentence}$ 略优于 $\text{Full-sentence}$ 。但由于 $\text{Doc-sentence}$ 长度不固定，导致 $\text{Batch size}$ 存在变化，因而后续实验均使用 $\text{Full-sentence}$ 格式进行比较。

使用大批量进行训练

原始 $\text{BERT}$ 使用 $\text{Batch size=256}$ 进行训练，训练步骤数量为 $\text{1M}$ 。在保持总计算量基本不变的情况下，将 $\text{Batch size}$ 由 $256$ 扩展至 $\text{2K,8K}$ ；对应训练步骤缩减至 $\text{125K,31K}$ ；并相应地调整学习率 $(\text{lr})$ ：
large batch size
可以发现： $\text{Batch size}$ 为 $\text{2K}$ 时表现效果最好。但考虑到并行更容易，作者均选择 $\text{8K}$ 作为后续实验的 $\text{Batch size}$ 。

使用Byte-pair Encoding作为子词词元化算法

$\text{RoBERTa}$ 并没有使用 $\text{Unicode}$ 作为子词次元 $(\text{Subword Unit})$ ，而是使用 $\text{Bytes}$ 进行替代。这种方式可以编码任何输入文本，并且不会引入任何 $\text{Unknown}$ 标记，这会使 $\text{Vocab size}$ 变得更大，参数更多 $(30\text{K} \Rightarrow 50\text{K})$ 。

以句子： $\text{It was a great day}$ 为例，对应 $\text{RoBERTa}$ 模型的标记结果如下：
$[\text{it},\dot{\text{G}}\text{was},\dot{\text{G}}\text{a},\dot{\text{G}}\text{great},\dot{\text{G}\text{day}}]$
其中 $\dot{\text{G}}$ 表示一个空格， $\text{RoBERTa}$ 词元分析其将所有空格替换为 $\dot{\text{G}}$ 字符。再以一个句子为例： $\text{I had a sudden epiphany}$ (我灵光一闪)：
$[\text{I},\dot{\text{G}}\text{had},\dot{\text{G}}\text{a},\dot{\text{G}}\text{sudden},\dot{\text{G}}\text{ep},\text{iphany}]$
这种标注结果是因为：未从词表中找到单词 $\text{epiphany}$ ，从而将其拆解未 $\text{ep}$ 和 $\text{iphany}$ 两部分。

更大的数据集和更多的训练步骤

$\text{RoBERTa}$ 延用了 $\text{BERT-large}$ 结构 $(\text{L=24,A=16,H=1024})$ ，在 $\text{Batch size}$ 固定为 $\text{8K}$ 的情况下，作者进行一系列对比实验：
有点降维打击的意思~数据量大意味着信息更丰富，效果好也在情理之中~
more data more steps
可以发现：

即便没有增加数据， $\text{RoBERTa}$ 依旧比 $\text{BERT-large}$ 结果优秀。当然总计算量增加了很多 $(\text{Batch size=8K,steps:31K} \Rightarrow 100\text{K})$ ，但这并没有带来过拟合的问题。
在训练数据基础上加上 $\text{additional Data}$ 效果进一步提升；
训练过程很稳定：即便 $\text{steps=500K}$ ，依然没有出现过拟合的现象。