SpanBert学习

ops/2024/9/23 0:04:44/

SpanBERT: Improving Pre-training by Representing and Predicting Spans

核心点

  1. 提出了更好的 Span Mask 方案,也再次展示了随机遮盖连续一段字要比随机遮盖掉分散字好;
  2. 通过加入 Span Boundary Objective (SBO) 训练目标,增强了 BERT 的性能,特别在一些与 Span 相关的任务,如抽取式问答;
  3. 用实验获得了和 XLNet 类似的结果,发现不加入 Next Sentence Prediction (NSP) 任务,直接用连续一长句训练效果更好

整体结构

1.Span Masking,SM。根据集合分布,随机选择一段span的长度,之后根据均匀分布随机选择这一段的起始位置,然后按照长度进行遮盖。使用几何分布取p=0.2,最大长度为10,通过采样,平均遮盖长度为3.8个词的长度。

2.SBO span boundary objective ,希望被遮盖span边界的词向量,能学习到span的内容。再训练时,取span前后边界的两个词,用这两个词向量加上span中被遮盖词的位置向量,预测原词。

将词向量和位置向量拼接起来,加两层全连接。使用Gelu函数,并使用正则化。

最后预测span中原值时计算新损失,即SBO目标的损失。将该损失与BERT的MLM损失加起来,一起训练模型。

3.NSP ,Next Sentence Prediction任务,SPanBert没有用NSP,使用Single-Sequence Traing。不加入NSP任务判断是否两句是上下句,直接用一句来训练。

训练细节

  1. 训练时用了 Dynamic Masking 而不是像 BERT 在预处理时做 Mask;
  2. 取消 BERT 中随机采样短句的策略
  3. 还有对 Adam 优化器中一些参数改变。

学习自 SpanBert:对 Bert 预训练的一次深度探索 - 知乎


http://www.ppmy.cn/ops/18060.html

相关文章

一键设置个性手机壁纸:苹果手机怎么设置动态壁纸?

在苹果手机上设置动态壁纸是一种让你的手机屏幕更生动、更有趣的方式。无论是流动的水滴、绚丽的光影还是动态的星空,动态壁纸可以为你的手机带来全新的视觉体验。苹果手机怎么设置动态壁纸?在本文中,我们将介绍苹果手机上如何设置动态壁纸的…

知识图谱:知识的表示方法

知识表示指的是存储在知识图谱中的数据使用何种语言或者何种数据结构进行描述,从而能够使得知识图谱中的知识运算更加快捷高效。知识表示的方式主要可分为三种,一种是以三元组的形式对知识进行表示,一种是以图结构的形式对知识进行表示&#…

streampetr原版网络nuscenes数据pkl文件中的各字段含义

streampetr原版网络nuscenes数据pkl文件中的各字段含义 每帧数据都包含下列的信息 "token": 该帧数据的标识,具有唯一性 "prev": 该帧数据上一帧数据的token,如果没有就为"" "next": 该帧数据下一帧数据的toke…

通过前端js获取指定年周的开始时间与结束时间(以周一为开始时间)

入参格式:年-周 //截取:具体看入参格式 let year2024; let week2; let weekStartDatenew Date(); let weekEndDatenew Date(); // 创建一个Date对象,设置为指定年份的第一周的周日 let date new Date(year, 0, 1); // 年份, 月份(0…

又重新搭了个个人博客

哈喽大家好,我是咸鱼。 前段时间看到一个学弟写了篇用 Hexo 搭建博客的教程,心中沉寂已久的激情重新被点燃起来。(以前搞过一个个人网站,但是因为种种原因最后不了了之) 于是花了一天时间参考教程搭了个博客网站&…

以太网口硬件知识分享

一、了解网口通信基本原理 实现网络通信实质上是PHY与MAC及RJ45接口实现信号传输。MAC 就是以太网控制器,MAC属于数据链路层,主要负责把数据封装成帧,对帧进行界定实现帧同步。对MAC地址和源MAC地址及逆行相应的处理并对错误帧进行处理。PHY…

jquery html(““)造成内存上涨

在 jQuery 中,使用 html("") 来清空元素的内容是一种常见的做法。然而,如果不慎用,这可能导致内存使用不当上升,尤其是在涉及到大量的 DOM 操作和事件处理器时。问题通常发生在直接或间接创建了大量的 DOM 元素&#xf…

Mudem,打造私密安全、高效稳定的私人空间

Mudem 是 Codigger 平台中的一个关键组件,它提供基础通讯服务,确保不同类型的机器之间可以进行安全和高效的连接。它其设计理念在于将本地机器、公有云以及私有云上的设备无缝地整合为一个可远程在线访问的工作站(Workstation)。这…