深入理解深度学习——BERT(Bidirectional Encoder Representations from Transformers):输入表示

news/2024/11/14 17:57:42/

分类目录:《深入理解深度学习》总目录
相关文章:
· BERT(Bidirectional Encoder Representations from Transformers):基础知识
· BERT(Bidirectional Encoder Representations from Transformers):BERT的结构
· BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model)
· BERT(Bidirectional Encoder Representations from Transformers):NSP(Next Sentence Prediction)任务
· BERT(Bidirectional Encoder Representations from Transformers):输入表示
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[句对分类]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[单句分类]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[文本问答]
· BERT(Bidirectional Encoder Representations from Transformers):微调训练-[单句标注]
· BERT(Bidirectional Encoder Representations from Transformers):模型总结与注意事项


BERT在预训练阶段使用了《深入理解深度学习——BERT(Bidirectional Encoder Representations from Transform):MLM(Masked Language Model)》和《深入理解深度学习——BERT(Bidirectional Encoder Representations from Transform):NSP(Next Sentence Prediction)任务》所述的两种训练方法,在真实训练的过程中,两种方法是混合在一起使用的。《深入理解深度学习——注意力机制(Attention Mechanism):自注意力(Self-attention)》中介绍的Self-attention不会考虑词的位置信息,因此Transformer需要两套Embedding操作,一套为One-hot词表映射编码(下图中标注为Token Embeddings),另一套为位置编码(下图中标注为Position Embeddings)。同时,在MLM的训练过程中,存在单句输入和双句输入的情况,因此BERT还需要一套区分输入语句的分割编码(下图中标注为Segment Embeddings)。BERT的Embedding过程包含三套Embedding操作,如下图所示。
 BERT的Embedding过程
以下图中的样例数据作为原始输入,可以通过以下5步得到最终的BERT输入表示。

  1. 获得原始输入句对“my dog is cute”和“he likes playing”。
  2. 对输入句子使用WordPiece分词,变成“my dog is cute”和“he likes play##ing”。
  3. 将句对拼接并加上用于分类的特殊标签符和分隔符,得到“[CLS]my dog is cute[SEP]he likes play##ing[SEP]”。
  4. 计算每一个词的Position Embeddings、Segment Embeddings和Token Embeddings,如上图中灰色、绿色和黄色区域所示。
  5. 将三个Embeddings表示相加,得到最终的BERT输入表示。

值得注意的是,Transformer使用的位置编码一般为三角函数,而BERT使用的位置编码和分割编码均在预训练过程中训练得到,其表示位置信息的能力更强。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.


http://www.ppmy.cn/news/532414.html

相关文章

5.5.2 IPv6数据报格式

5.5.2 IPv6数据报格式 首先我们来回忆一下IPv4数据报首部格式(5.2.3 IP数据报(一)IP数据报的格式),包括20个字节的固定部分和长度可变的选项部分,如图 红色方框标注的是在IPv6中会消失的字段,椭…

面试题:mybatis中# 和 $ 的区别

面试题:mybatis中# 和 $ 的区别 一、主要区别如下: 1、#{}可以理解为预处理,而${}是直接替换。 #传入的参数在SQL中显示为字符串,会对自动传入的数据加上双引号。 $传入的参数在SQL中直接显示为传入的值 2、#{}试用于所有类型…

分片和一致性哈希

在设计大规模分布式系统时,你可能会遇到两个概念——分片(sharding)和一致性哈希(consistent hashing)。虽然我在网上找到了很多关于这些术语的解释,但它们让我感到有些困惑。我觉得分片和一致性哈希本质上…

兄弟j220怎么清零_兄弟打印机MFC_J220墨水回收盒满,该如何清零,望大神指教。...

展开全部 兄弟打e69da5e887aa62616964757a686964616f31333365646238印机MFC_J220墨水回收盒满清零方法: 1、首先检查一下打印机当前是否已经被设置为“暂停打印”,如果是的话,无论怎样向打印机发送打印命令,打印机肯定不会接受打印…

兄弟mfc9140cdn无法识别_兄弟Brother MFC-9140CDN打印机驱动

相关软件 软件大小 版本说明 下载地址 每个打印机在使用的时候都会有点小问题,那么这时就需要相对应的驱动来解决了,因此小编给大家带来了一款兄弟MFC-9140CDN驱动程序,欢迎下载! 基本参数 产品定位多功能商用一体机 产品类型彩色…

兄弟打印机Linux驱动安装与CUPS共享

打印机:HL22260D 主机:Ubuntu 16.04 实现的需求:使打印机具备网络打印功能 要点: 兄弟官网下载驱动,见本文件目录下ubuntu16.04上解压,运行安装脚本按照脚本向导,注意选择正确的URL&#xff…

联想win11出现wifi图标消失

联想win11系统出现wifi图标消失,在控制面板的硬件查看是说网卡驱动没安装,但是用联想管家进行驱动检测也没有问题(当没有网的时候,用手机数据线连接电脑开启热点,仅USB)。不要重启,直接关机&…

解决ThinkPad联想 笔记本电脑无法连接隐藏网络问题-提示“无法连接这个网络”

我的是ThinkPad联想 E575 笔记本电脑,连接隐藏的WiFi一直连不起,尝试过之前网络上的很多方法,比如在网络共享中心 设置新的连接或网络>>手动连接到网络 的方式,但是依旧不行。 不过偶然解决了,发现很简单&…