分类目录:《深入理解深度学习》总目录
相关文章:
· BERT(Bidirectional Encoder Representations from Transformers):基础知识
· BERT(Bidirectional Encoder Representations from Transformers):BERT的结构
· BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model)
· BERT(Bidirectional Encoder Representations from Transformers):NSP(Next Sentence Prediction)任务
· BERT(Bidirectional Encoder Representations from Transformers):输入表示
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[句对分类]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[单句分类]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[文本问答]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[单句标注]
· BERT(Bidirectional Encoder Representations from Transformers):模型总结与注意事项
与GPT一样,BERT同样采用了二段式训练方法,第一阶段使用易获取的大规模无标签语料,包括来自各类图书中的文本(8亿个词)和来自英文维基百科(25亿个词)的数据,来训练基础语言模型;第二阶段根据指定任务的少量带标签训练数据进行微调训练。不同于GPT等标准语言模型仅以 P ( w i ∣ w 1 , w 2 , ⋯ , w i − 1 ) P(w_i|w_1, w_2, \cdots, w_{i-1}) P(wi∣w1,w2,⋯,wi−1)为目标函数进行训练,能看到全局信息(包括待预测词本身)的BERT并不使用此类目标函数。BERT用MLM(Masked Language Model,掩码语言模型)方法训练词的语义理解能力,用NSP(Next Sentence Prediction,下句预测)方法训练句子之间的理解能力,从而更好地支持下游任务。
很多自然语言处理的下游任务,如问答和自然语言推断,都基于两个句子做逻辑推理,而语言模型并不具备直接捕获句子之间语义联系的能力(由训练方法和目标函数的特性决定)。为了学会捕捉句子之间的语义联系,BERT采用NSP作为无监督预训练的一部分。具体而言,BERT的输入语句将由两个句子组成,其中,50%的概率将语义连贯的两个连续句子作为训练文本(注意,连续句子应取自篇章级别的语料,以确保前后语句的语义强相关),另外50%的概率将完全随机抽取的两个句子作为训练文本,BERT需要根据输入的两个句子,判断它们是否为真实的连续句对。下面给出一个例子:
连续句对:[CLS]今天天气很糟糕[SEP]下午的体育课取消了[SEP]
随机句对:[CLS]今天天气很糟糕[SEP]鱼快被烤焦啦[SEP]
其中,[SEP]
标签表示分隔符,用于区分两个句子,而[CLS]
标签对应的输出向量作为句子整体的语义表示,用于类别预测,若结果为1,表示输入语句为真实的连续句子,其上下文有语义联系;若结果为0,则表示输入语句为随机构造的句子,上下文并没有语义联系。通过训练[CLS]
编码后的输出标签,BERT可以学会捕获两个输入句对的文本语义,在连续句对的预测任务中,BERT的正确率可以达到97%~98%,为下游任务的微调训练打下了坚实基础。
参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.