深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):NSP任务

news/2024/11/24 10:27:45/

分类目录:《深入理解深度学习》总目录
相关文章:
· BERT(Bidirectional Encoder Representations from Transformers):基础知识
· BERT(Bidirectional Encoder Representations from Transformers):BERT的结构
· BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model)
· BERT(Bidirectional Encoder Representations from Transformers):NSP(Next Sentence Prediction)任务
· BERT(Bidirectional Encoder Representations from Transformers):输入表示
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[句对分类]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[单句分类]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[文本问答]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[单句标注]
· BERT(Bidirectional Encoder Representations from Transformers):模型总结与注意事项


与GPT一样,BERT同样采用了二段式训练方法,第一阶段使用易获取的大规模无标签语料,包括来自各类图书中的文本(8亿个词)和来自英文维基百科(25亿个词)的数据,来训练基础语言模型;第二阶段根据指定任务的少量带标签训练数据进行微调训练。不同于GPT等标准语言模型仅以 P ( w i ∣ w 1 , w 2 , ⋯ , w i − 1 ) P(w_i|w_1, w_2, \cdots, w_{i-1}) P(wiw1,w2,,wi1)为目标函数进行训练,能看到全局信息(包括待预测词本身)的BERT并不使用此类目标函数。BERT用MLM(Masked Language Model,掩码语言模型)方法训练词的语义理解能力,用NSP(Next Sentence Prediction,下句预测)方法训练句子之间的理解能力,从而更好地支持下游任务。

很多自然语言处理的下游任务,如问答和自然语言推断,都基于两个句子做逻辑推理,而语言模型并不具备直接捕获句子之间语义联系的能力(由训练方法和目标函数的特性决定)。为了学会捕捉句子之间的语义联系,BERT采用NSP作为无监督预训练的一部分。具体而言,BERT的输入语句将由两个句子组成,其中,50%的概率将语义连贯的两个连续句子作为训练文本(注意,连续句子应取自篇章级别的语料,以确保前后语句的语义强相关),另外50%的概率将完全随机抽取的两个句子作为训练文本,BERT需要根据输入的两个句子,判断它们是否为真实的连续句对。下面给出一个例子:

连续句对:[CLS]今天天气很糟糕[SEP]下午的体育课取消了[SEP]
随机句对:[CLS]今天天气很糟糕[SEP]鱼快被烤焦啦[SEP]

其中,[SEP]标签表示分隔符,用于区分两个句子,而[CLS]标签对应的输出向量作为句子整体的语义表示,用于类别预测,若结果为1,表示输入语句为真实的连续句子,其上下文有语义联系;若结果为0,则表示输入语句为随机构造的句子,上下文并没有语义联系。通过训练[CLS]编码后的输出标签,BERT可以学会捕获两个输入句对的文本语义,在连续句对的预测任务中,BERT的正确率可以达到97%~98%,为下游任务的微调训练打下了坚实基础。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.


http://www.ppmy.cn/news/534413.html

相关文章

基于深度学习的高精度抽烟行为检测识别系统(PyTorch+Pyside6+YOLOv5模型)

摘要:基于深度学习的高精度抽烟行为检测识别系统可用于日常生活中或野外来检测与定位抽烟行为目标,利用深度学习算法可实现图片、视频、摄像头等方式的抽烟行为目标检测识别,另外支持结果可视化与图片或视频检测结果的导出。本系统采用YOLOv5…

Vue中用计算属性来实现过滤(比watch来实现好一点)

<html> <head> <meta charset"UTF-8" /> <title>初始条件渲染</title> <!-- 引入Vue --> <script type"text/javascript" src"../js/vue.js"></script> </head> <body> <div i…

Rust 自建HTTP Server支持图片响应

本博客是在杨旭老师的 rust web 全栈教程项目基础上进行修改&#xff0c;支持了图片资源返回&#xff0c;杨旭老师的rust web链接如下&#xff1a; https://www.bilibili.com/video/BV1RP4y1G7KFp1&vd_source8595fbbf160cc11a0cc07cadacf22951 本人默认读者已经学习了相关…

海信舒适家空调新品发布 跨界满足用户差异化需求

本文来自万维家电网 消费升级大趋势下&#xff0c;用户渴望呼吸健康清洁的空气&#xff0c;享受品质生活。通过技术创新实现产品差异化&#xff0c;满足更高消费需求在争夺空调市场话语权上尤为重要。科技创新作为海信空调稳健发展的第一生产力&#xff0c;正在成功撬动海信在…

关键字搜索天猫商品api调用展示

为了进行此平台API的调用&#xff0c;首先我们需要做下面几件事情。 1&#xff09;建立一个key 2&#xff09;然后为应用注册一个应用程序键&#xff08;App Key) 。 3&#xff09;下载 API的SDK并掌握基本的API基础知识和调用 4&#xff09;利用SDK接口和对象&#xff0c;…

双11家电:你卖的是“地板价”,还是“天价”

今年的双11&#xff0c;家电市场格外热闹。11月9日&#xff0c;格力电器宣布“双11”期间将让利30亿元打击低质伪劣产品&#xff0c;此后,美的、奥克斯、海信等纷纷跟进。 打折促销带来的销售推动显而易见。格力官微的双11战报显示&#xff0c;格力电器用时21分36秒&#xff0…

爱迪生、云计算、大数据与海信

1893年&#xff0c;爱迪生实现了电的第一次商业化应用&#xff0c;1905年&#xff0c;美国尼亚加拉大瀑布开始建设第一个中央发电厂&#xff0c;“电”开始慢慢成为了一个公共基础设施&#xff0c;同时开启了美国在第二次工业革命的高速发展。 当电出现之后&#xff0c;爱迪生把…

空调市场竞争态势激烈 2019迎来“最坏时代”?

缘于外部经济、房地产等宏观环境不利的影响&#xff0c;空调市场步入下行空间。国家信息中心监测数据显示&#xff0c;截止2018年12月&#xff0c;空调整体市场销售量下降10.6%&#xff0c;销售额下降7.6%。 据中怡康数据测算&#xff0c;房地产周期对空调行业的负面冲击将在整…