【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach

news/2024/11/29 13:50:53/

·阅读摘要:
  本文在BERT模型的基础上进行了一些改进,提出了RoBERTa模型,并证明了RoBERTaBERT的效果更好一些。
·参考文献:
  [1] RoBERTa: A Robustly Optimized BERT Pretraining Approach
  [2] BERT模型讲解,参考博客:【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

  目前预训练语言模型按时间排:ELMo - GPT - BERT - XML - XLNet - RoBERTa - ALBERT。基本上越往后的模型效果越好。

  BERT用了16GB的训练数据,XLNet用了126GB数据,RoBERTa用了160GB数据。从个人理解上,XLNet像是为了超越BERT而提出各种花里胡哨trick的模型,而RoBERTa完全是对标XLNet的BERT加强版,从RoBERTa论文的各种设置就能看出来它是想干掉XLNet哈哈。

  本文对BERT进行复制研究,其中包括对超参数调整和训练集大小的影响的仔细评估,并提出了一种改进的训练BERT模型的方法,主要有4点:

  1、动态掩码机制(Dynamic Masking)
  2、取消下一个句子预测机制(Next Sentence Prediction, NSP),更改模型输入形式
  3、训练模型的时间更长,批次更大,数据更多,更大的字节对编码(Byte-Pair Encoding, BPE)词典
  4、全长序列训练

[1] 动态掩码机制

  首先介绍BERT模型中的掩码语言模型(Masked Language Model, MLM)

  对于一条样本,随机选择序列中的词,然后用特殊词[MASK]替换。MLM的目标是预测掩码时的交叉熵损失。BERT统一选择15%的输入词用于可能的替换。在选定的词中,80%的时间被替换为[MASK],10%的时间保持不变,剩下10%的时间被随机替换成词典中的任意词。

  原始的BERT实现在数据预处理期间执行一次masking,然后直接用于训练,但是这样会在每个时期对每个训练实例使用相同的掩码。

  为了避免这个情况,BERT会把训练数据被复制10次,以便在40个训练时期内以10种不同的方式对每个序列进行掩码。

【注一】其实它这样还是在数据预处理时只执行一次masking。而且训练数据被复制10次,可能不如扩大到10倍的数据集。

  介绍RoBERTa模型中的动态掩码(Dynamic Masking)

  在动态掩蔽中,每次向模型喂输入序列时,都会动态生成掩码。

【注二】说起来比较简单。

[2] 取消下一个句子预测,更改模型输入形式

  首先介绍BERT模型中的下一个句子预测(Next Sentence Prediction, NSP)

  NSP是一种二进制分类损失,用于预测两个片段在原始文本中是否相互连续。通过从文本语料库中提取连续的句子来创建正例,反例是通过对不同文档的片段进行配对来创建的。正反两个例子的抽样概率相等。NSP目标旨在提高下游任务的性能,如自然语言推理,这需要对句子对之间的关系进行推理。

  RoBERTa模型为什么要取消NSP

  原因一: 近年来,有人质疑NSP的必要性。

  原因二: 作者做实验验证了NSP是没有必要的。作者比较了几种不同的模型输入形式:

  · SEGMENT-PAIR+NSP:这是BERT中使用的原始输入格式,使用NSP Loss。每个输入都有一对段,每个段可以包含多个自然语句,但总的组合长度必须小于512个标记。
  · SENTENCE-PAIR+NSP:每个输入都包含一对自然语句,可以从一个文档的连续部分中采样,也可以从单独的文档中采样。由于这些输入明显短于512个令牌,增加了批大小,以便令牌总数保持与SEGMENT-PAIR+NSP相似,保留NSP Loss。
  · FULL-SENTENCES:每个输入都包含从一个或多个文档连续采样的完整句子,因此总长度最多为512个标记。输入可能跨文档。当采样到一个文档的末尾时,对下一个文档中的句子进行采样,并在文档之间添加一个额外的分隔符标记。不使用NSP Loss。
  · DOC-SENTENCES:输入的构造类似于FULL-SENTENCES,只是它们不能跨文档。在文档末尾附近采样的输入可能短于512个令牌,因此在这些情况下动态地增加批大小,以实现与FULLSENTENCES相同数量的总令牌。我不使用NSP Loss。

【注三】相当严谨。

  以下是实验结果:
在这里插入图片描述

[3] 训练模型的时间更长,批次更大,数据更多,更大的字节对编码词典

【注四】关于“训练模型的时间更长,批次更大,数据更多”文章说了很多,总结起来就是:大力出奇迹。主要说一下字节对编码。

  字节对编码(Byte-Pair Encoding, BPE)是字符和单词级表示之间的混合,允许处理自然语言语料库中常见的大型词汇。BPE不依赖于完整的单词,而是依赖于通过对训练语料库进行统计分析而提取的子单词单元。BPE词汇表的大小通常在10K-100K子字单位之间。然而,在对大型和多样的语料库建模时,unicode字符可以占到词汇表的相当大的一部分。Radford等人(2019)介绍了一种巧妙的BPE实现,它使用字节而不是unicode字符作为基本子字单位。使用字节可以学习中等大小(50K单位)的子单词词汇表,仍然可以对任何输入文本进行编码,而不会引入任何[UNK]标记。

  原始BERT实现使用大小为30K的字符级BPE词汇表,该词汇表是在使用启发式标记化规则预处理输入后学习的。作者使用包含50K个子字单元的更大字节级BPE词汇来训练BERT,而不对输入进行任何额外的预处理或标记化。

[4] 全长序列训练

  RoBERTa模型用最多T=512个标记的序列进行预训练。与BERT模型不同,RoBERTa模型不随机注入短序列,也不在前90%的更新中使用减少的序列长度进行训练。RoBERTa模型只训练全长序列。

[5] 实验效果总结

  改进的预训练程序RoBERTa模型在GLUERACESQuAD上实现了最先进的结果,无需对GLUE进行多任务微调或对SQuAD进行额外数据。


http://www.ppmy.cn/news/288766.html

相关文章

Simulink中仿真观测有的信号线显示optimized

在Normal 模式下,启用Conditional input branch execution 的模块优化选项会显示此消息。导致Simulink 无法获取信号值。 conditional input branch execution:该选项针对于switch等if判断模块,不激活时,代码会计算switch每个分支…

论文阅读——RoBERTa A Robustly Optimized BERT Pretraining Approach

RoBERTa A Robustly Optimized BERT Pretraining Approach Abstract Devlin等人在 BERT Pre-training of Deep Bidirectional Transformers for Language Understanding 提出的BERT预训练研究虽然已达到最优结果,但 训练成本比较高,很难彻底得到训练训…

健身耳机什么牌子好?健身耳机推荐

作为一名健身爱好者,在锻炼的过程中我会佩戴蓝牙运动耳机并且选择一些合适的音乐来帮助我突破更强的自己。健身过程中有氧和无氧运动的交替使得我们对耳机的要求更高。舒适度,防水性等都是我们挑选运动耳机需要考量的点。今天就和大家分享一下各大品牌推…

支持免费试用的香港云服务器推荐

香港机房因为离国内近,访问速度快,又不需要备案,满足了部分人的需求而存在。 但是不可否认,不同的机房/稳定性差异是存在的,加上又有部分菜鸟级的恶意使用者把其用作恶意站点,导致了当前越来越多的香港主机…

北汽蓝谷极狐阿尔法S与T

北汽蓝谷极狐阿尔法S与T 阿尔法 S新一代智能豪华纯电轿车 世界知名汽车设计师沃尔特德席尔瓦担任ARCFOX极狐品牌设计师, 为ARCFOX极狐 制定了“无边界”家族化设计理念,从设计层面助推品牌实现高端化。 开放共享的全球产业链合作 合作历程 2017年9月 极狐…

造车行业百年未有变局之下,一个「老玩家」开始了自己的赶超

2020-12-07 15:58:18 机器之心原创 机器之心编辑部 一台续航 700 公里,百公里加速 4.8 秒的电动 SUV 即将开卖,它还用上了华为 5G 车联技术。 2020 年,我们见证了新能源车市场的飞速发展,造车新势力逐渐成长为汽车行业重要的一极…

JAVA-(5)-学习Java 商城案例一步一步搭建mall-tiny

mall-tiny是从mall项目中抽取出来的项目骨架,保留了mall项目的整个技术栈,对业务逻辑进行了精简,只保留了权限及商品核心表,方便开发使用,可以自由定制业务逻辑。自行下载源码:https://github.com/macrozhe…

镜头品牌加入,激光电视迎来质变?

配图来自Canva可画 尽管近几年彩电市场持续低迷,但激光电视的销量却在逆势走高,成为疫情以来国内彩电行业里唯一保持正增长的产品品类。作为激光电视领域的头部企业,海信的激光电视在消费者满意度方面好评最高,在业内也是备受关注…