BERT模型入门(1)BERT的基本概念

news/2024/12/24 6:03:03/
文章目录

BERT是Bidirectional Encoder Representations from Transformers的首字母简写,中文意思是:Transformer的双向编码器表示。它是谷歌发布的最先进的嵌入模型。BERT在许多NLP任务中提供了更好的结果,如问答、文本生成、句子分类等,从而在NLP领域取得了重大突破。BERT成功的一个主要原因在于它是一个基于上下文的嵌入模型,而其他流行的嵌入模型,如word2vec,则是上下文无关的。

首先,让我们了解基于上下文和上下文无关嵌入模型之间的区别。考虑以下两个句子:

句子A:He got bit by Python.

句子B:Python is a popular programming language.

通过阅读上述两个句子,我们可以理解到“Python”这个词在两个句子中的意思不同。在句子A中,“Python”指的是蛇,而在句子B中,“Python”指的是编程语言。

现在,如果我们使用word2vec这样的嵌入模型为上述两个句子中的“Python”这个词获取嵌入,那么“Python”的嵌入在两个句子中将是相同的,这使得“Python”在两个句子中的意思相同。这是因为word2vec是一个上下文无关模型,它会忽略上下文,总是为“Python”提供相同的嵌入,无论上下文如何。

与之不同,BERT是一个基于上下文的模型。它会理解上下文,然后基于上下文生成单词的嵌入。因此,对于上述两个句子,它会根据上下文为“Python”提供不同的嵌入。但这是如何工作的?BERT是如何理解上下文的?让我们更深入地探讨这个问题。

让我们以句子A为例:He got bit by Python.。首先,BERT将句子中的每个单词与句子中的所有其他单词关联起来,以理解每个单词的上下文意义。因此,为了理解“Python”这个词的上下文意义,BERT将“Python”这个词与句子中的所有单词关联起来。通过这样做,BERT可以理解句子A中的“Python”通过“咬”这个词指的是蛇,如下所示:

在这里插入图片描述

图2.1 – 将“Python”这个词与所有其他单词关联

现在,让我们看看句子B:Python is a popular programming language.

同样地,BERT将句子中的每个单词与句子中的所有单词关联起来,以理解每个单词的上下文意义。因此,BERT将“Python”这个词与句子中的所有单词关联起来,以理解“Python”这个词的意思。通过这样做,BERT理解句子B中的“Python”与编程语言有关,通过使用“编程”这个词,如下所示:

在这里插入图片描述

图2.2 – 将“Python”这个词与所有其他单词关联

因此,与word2vec这样的上下文无关模型不同,后者无论上下文如何都生成静态嵌入,BERT基于上下文生成动态嵌入。

好了,问题是BERT究竟是如何工作的?它是如何理解上下文的?现在我们有了BERT的基本概念,接下来我们将更详细地探讨BERT,并找到这些问题的答案。


感谢您的阅读,欢迎关注!



http://www.ppmy.cn/news/1557658.html

相关文章

01.02、判定是否互为字符重排

01.02、[简单] 判定是否互为字符重排 1、题目描述 给定两个由小写字母组成的字符串 s1 和 s2,请编写一个程序,确定其中一个字符串的字符重新排列后,能否变成另一个字符串。 在这道题中,我们的任务是判断两个字符串 s1 和 s2 是…

《类和对象:基础原理全解析(上篇)》

目录 一、浅谈面向过程和面向对象二、C 中的结构体(struct)1. C 中 struct 的使用 三、C 中的类(class)四、类的封装性1. 类成员的权限控制关键字2. 权限控制关键字的使用 五、类的六大默认成员函数介绍六、构造函数1. 使用构造函…

go基本知识与语法入门

Go 语言(又称 Golang)是一种由 Google 开发的开源编程语言,设计目标是简洁、高效、并发友好,适合用于构建高性能的系统和网络应用程序。Go 语言的语法相对简单,非常适合大规模软件开发。 1. 基本结构 Go 程序的基本结…

Jenkins 持续集成部署——Jenkins实战与运维(1)

一、Jenkins 相关配置及代码发布 1. Jenkins 发布 php 代码 1.1 安装插件 先进入“系统管理”,再进入“管理插件”,在“已安装”中检查是否有“Git plugin”和“Publish Over SSH”两个插件,如果没有则需要安装,到“可选插件”中…

HTTP 请求Media typetext/plain application/json text/json区别

这三种媒体类型表示的是内容在 HTTP 请求或响应中传输时的格式和语义,它们之间的主要区别如下: 1. text/plain 用途: 表示纯文本内容,没有格式化和结构化要求。 内容特征: 是简单的纯文本,没有特定的语法结构。 通常不包含…

【网络云计算】2024第51周-每日【2024/12/19】小测-理论-如何实际一个校园网-简要列出

文章目录 1. 需求分析2. 网络架构3. 有线与无线网络覆盖4. 网络设备5. 安全策略6. 网络管理与监控7. 可扩展性与灵活性8. 教育应用与支持9. 用户教育与培训10. 预算与成本控制 【网络云计算】2024第51周-每日【2024/12/19】小测-理论-如何实际一个校园网 设计一个中专的校园网络…

合合信息分享视觉内容安全新技术,助力行业智能化发展

在当今数字化高速发展的时代,视觉内容安全成为备受瞩目的话题。 为探寻AI安全治理的新道路,近日,由中国图像图形学学会主办,浙江大学、杭州全息智能技术研究院、中国图像图形学学会青年工作委员会承办的《中国图形图像学学会青年…

【机器学习】机器学习的基本分类-强化学习-模型预测控制(MPC:Model Predictive Control)

Model Predictive Control (MPC) Model Predictive Control (MPC),即模型预测控制,是一种基于优化的控制算法,广泛应用于工业、自动驾驶、机器人等领域。它通过预测未来系统的行为,并在线解决优化问题来获得控制输入,…