BERT模型入门(2)BERT的工作原理

server/2024/12/17 8:03:33/

文章目录


如名称所示,BERT(来自Transformer的双向编码器表示)是基于Transformer模型。我们可以将BERT视为只有编码器部分的Transformer。

在上一个主题《Transformer入门》中,我们了解到将句子作为输入喂给Transformer的编码器,它会返回句子中每个单词的表示作为输出。这正是BERT的本质——来自Transformer的编码器表示(Encoder
Representation from Transformer)。那么,“双向”这个词又是什么意思呢?

在 “Bidirectional Encoder Representation from Transformers” (BERT) 中的 “Bidirectional” 这个词,指的是模型在处理文本数据时能够同时考虑文本中的前后上下文信息。

以下是对 “Bidirectional” 的具体解释:

(1)传统单向语言模型:在 BERT 之前,常见的语言模型如 LSTM 或 GRU,通常是单向的。这意味着它们要么从左到右(正向)读取文本信息,要么从右到左(反向)读取。这样,每个词的表示只包含了它在一个方向上的上下文信息。

(2)双向性:而 “Bidirectional” 意味着模型在处理一个词时,能够同时考虑这个词左边和右边的上下文。这样,每个词的表示都能融合来自两个方向的信息,从而更加全面地理解词义和上下文。

在 BERT 模型中,“Bidirectional” 的实现方式如下:

(1)**Masked Language Model (MLM) **:在训练过程中,随机地遮盖(mask)输入序列中的一些词,然后要求模型预测这些被遮盖的词。由于模型不知道哪些词会被遮盖,因此它必须考虑所有词在两个方向上的上下文。

(2)**Next Sentence Prediction (NSP) **:在训练时,模型还会接收成对的句子作为输入,并学习预测第二个句子是否是第一个句子的后续。这进一步增强了模型对上下文的理解。

通过这种方式,BERT 成为了一个真正意义上的双向模型,它能够捕获文本中的复杂依赖关系,并在各种自然语言处理任务中取得了显著的性能提升。

Transformer的编码器本质上是双向的,因为它可以双向读取句子。因此,BERT基本上是从Transformer获得的双向编码器表示(the Bidirectional Encoder Representation obtained from the Transformer)。

让我们通过一个例子来理解BERT是如何作为Transformer的双向编码器表示的。让我们使用上一节中看到的同一个句子。

假设我们有句子A:He got bit by Python。现在,我们将这个句子作为输入喂给Transformer的编码器,并得到句子中每个单词的上下文表示(embedding,嵌入)作为输出。一旦我们将句子作为输入喂给编码器,编码器就会使用多头注意力机制(将句子中的每个单词与句子中的所有单词关联起来,以学习单词之间的关系和上下文意义)理解句子中每个单词的上下文,并返回句子中每个单词的上下文表示作为输出。

如下图所示,我们将句子作为输入喂给Transformer的编码器,并得到句子中每个单词的表示(representation)作为输出。我们可以堆叠N个编码器,如下图所示。我们只展开了编码器1,以减少混乱。在下面的图中,R_He是单词“He”的表示,R_got是单词“got”的表示,以此类推。每个标记的表示大小将是编码器层的大小。假设编码器层的大小是768,那么每个标记的表示大小将是768:

在这里插入图片描述

图2.3 – BERT生成句子中每个单词的表示

同样,如果我们把句子B,“Python is a popular programming language.”,喂给Transformer的编码器,我们得到句子中每个单词的上下文表示作为输出,如下图所示:

在这里插入图片描述

图2.4 – BERT生成句子中每个单词的表示

因此,使用BERT模型,对于给定的句子,我们得到句子中每个单词的上下文表示(embedding,嵌入)作为输出。

现在我们了解了BERT是如何生成上下文表示的,接下来我们将查看BERT的不同配置。


感谢您的阅读,欢迎关注!



http://www.ppmy.cn/server/150842.html

相关文章

AI助力内容审核:精准、高效守护媒体生命线

AI审核取代人类 内容安全现在已经成为各媒体单位的生命线,随着AI技术的飞速发展,AI在内容审核领域的应用也已经成为一种新的趋势,它不仅提高了审核工作的效率,还增强了审核结果的准确性。 AI校对软件和工具通过机器学习和自然语言…

光控资本:锂电排产上行 AI手机有望快速渗透

AI手机有望快速渗透 据赛迪参谋猜想,2024年AI手机的出货量估量将会抵达1.5亿部,占全球智能手机总出货量13%,到2027年,全球AI手机销售量有望跨过5.9亿部,占全球智能手机总出货量的比重跨过50%。 跟着硬件根底夯实、端侧…

在 Kibana 中为 Vega Sankey 可视化添加过滤功能

作者:来自 Elastic Tim Bosman 及 Miloš Mandić 有兴趣在 Kibana 中为 Vega 可视化添加交互式过滤器吗?了解如何利用 “kibanaAddFilter” 函数轻松创建动态且响应迅速的 Sankey 可视化。 在这篇博客中,我们将了解如何启用 Vega Sankey 可视…

2024年9月CCF GESP Scratch图形化编程等级考试二级真题试卷

ESP 图形化二级试卷(A) (满分:100 分 考试时间:120 分钟) 一、单选题(共 10 题,每题 3 分,共 30 分) 1、2024 年 10 月 8 日,诺贝尔物理学奖“意…

数据治理技术体系

1. 元数据管理 元数据是企业数据的DNA。元数据管理则是对元数据的创建、存储、整合、控制的一整套流程,是数据治理过程的一部分。 基于业务需求,元数据管理系统建设可分为以下4大模块: (1) 元数据获取:各阶段元数据的统一收集、…

uniapp小程序https页面嵌套http的H5页面问题笔记

一、错误信息 This request has been blocked; the content must be served over HTTPS. 二、解决方法 <meta http-equiv"Content-Security-Policy" content"upgrade-insecure-requests"> 三、解决过程 1、在根目录下新建template.html <!D…

论坛服务搭建

一、实验背景 论坛是互联网的一种应用服务模式。通过这种服务&#xff0c;互联网用户可以在上面浏览到其他用户在网站发表的各种主题、 文章、资讯信息、问题交流等具有各种表现形式的文字。并且用户可以在上面针对某个具体的内容即时地发表自己的 回答、看法、议论等&#xf…

浅析明达技术新一代Modbus网关

在工业自动化技术迅猛发展的当下&#xff0c;数据的采集与实时监控已然成为提高生产效率、减少故障率的关键举措。Modbus 作为一种被广泛运用的通信协议&#xff0c;以其开放性、简易性和可靠性&#xff0c;在工业自动化领域占据着举足轻重的地位。而 Modbus 网关作为数据交互的…