深入理解Transformer的笔记记录(精简版本)---- ELMO->GPT->BERT

server/2024/10/15 17:03:06/

1、ELMO

word embedding无法区分多义词的不同语义,其本质上是个静态的方式,所谓静态指的是训练好之后每个单词的表达就固定住了,以后使用的时候,不论新句子上下文单词是什么,这个单词的Word Embedding不会跟着上下文场景的变化而改变
    ELMO根据当前上下文对Word Embedding动态调整的思路,事先用语言模型学好一个单词的Word Embedding,然后在我实际使用Word Embedding的时候,单词已经具备了特定的上下文了,这个时候可以根据上下文单词的语义去调整单词的Word Embedding表示。

1.1 ELMO采用了典型的两阶段过程:

(1) 第一个阶段是通过语言模型LSTM进行预训练
    上图左端的前向双层LSTM代表正方向编码器,输入的是从左到右顺序的上文Context-before;
    右端的逆向双层LSTM代表反方向编码器,输入的是从右到左的逆序的下文Context-after
    同时,每个编码器的深度都是两层LSTM叠加

(2)第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding(E1,E2,E3)作为新特征补充到下游任务中。

双层双向LSTM:  虽然ELMO用双向LSTM来做encoding,但是这两个方向的LSTM其实是分开彼此独立训练的(一个从左向右预测,一个从右向左预测,在左边和右边的内部结构里,其本质还是单向),只是在最后在loss层做了个简单相加。 对于每个方向上的单词来说,在一个方向被encoding的时候始终是看不到它另一侧的单词的,既解决了see itself的问题,又充分用上了上下文的语义。

1.2 使用方法

使用这个网络结构利用大量语料做语言模型任务就能预先训练好这个网络,如果训练好这个网络后,再输入一个新句子,句子中每个单词都能得到对应的三个Embedding:

先将句子X作为预训练好的ELMO网络的输入
这样句子X中每个单词在ELMO网络中都能获得对应的三个Embedding

(1)第一个Embedding,是单词的Word Embedding


http://www.ppmy.cn/server/132281.html

相关文章

http大数据post与put请求

大数据请求情况下出现post请求提交出错而put请求提交不出错 一、http方法特性差异 1、请求语义和用途不同 post通常用于 创建新资源Put一般用于更新现有资源服务器对于不同的HTTP方法可能有不同的处理逻辑和优化策略。在某些情况下,服务器可能对put请求的处理更加…

数据恢复与取证: 使用 OSForensics 从未启动 Android 设备中获取数据

天津鸿萌科贸发展有限公司是 OSForensics 数据调查取证软件的授权代理商。 OSForensics 数据调查取证软件协助用户通过高性能文件搜索快速从计算机和智能设备中提取数据调查证据;通过哈希匹配、驱动器签名比较、电子邮件、内存和二进制数据识别可疑文件和活动&#…

Java基础:面向对象编程4

1 Java 访问修饰符 1.1 概述 Java 提供了四种访问权限控制: 默认访问权限(包访问权限)publicprivateprotected 类只能使用默认访问权限和 public 修饰,而变量和方法则可以使用所有四种修饰符。 1.2 修饰类 默认访问权限&…

科研绘图系列:R语言绘制中国地理地图

文章目录 介绍加载R包导入数据图a图b图c图d系统信息介绍 文章提供了绘制图a,图b和图d的数据和代码。该图展示了不同省份的物种分布情况。 加载R包 library(geojsonsf) library(sf) library(ggplot2) library(RColorBrewer) library(ggspatial) library(</

SQL之什么是窗口函数OVER

文章目录 一、OVER 的定义二、OVER 的语法三、OVER 的用法 一、OVER 的定义 OVER 用于为行定义一个窗口&#xff0c;它对一组值进行操作&#xff0c;不需要使用 GROUP BY 子句对数据进行分组&#xff0c;能够在同一行中同时返回基础行的列和聚合列。 二、OVER 的语法 OVER (…

获取京东商品历史价格接口item_history_price介绍

接口开发背景 京东作为中国知名的电商平台&#xff0c;提供了丰富的商品和服务。为了更好地满足用户和商家的需求&#xff0c;京东开放平台推出了多种API接口&#xff0c;其中“item_history_price”接口用于获取指定商品的历史价格信息。这一接口的开发背景在于帮助用户判断当…

2013 lost connection to MySQL server during query

1.问题 使用navicat连接doris&#xff0c;会有这个错误。 2.解决 换低版本的navicat比如navicat11。

鸿蒙进入“无人区”:该如何闯关?

按照华为方面的说法&#xff0c;“打造鸿蒙操作系统是三大战役&#xff0c;目前已经完成了底座和体验两大战役&#xff0c;第三大战役则是生态。”生态固然重要&#xff0c;但要让鸿蒙与当今世界主流操作系统抗衡&#xff0c;乃至成为新一代操作系统中的翘楚&#xff0c;其实还…