BERT论文核心点记录

news/2024/12/21 22:55:42/

BERT适合分类任务(整段分类后者词分类),对生成任务不友好

使用BERT的方法:只需要在预训练好的BERT基础上新增一个输出层,然后用标记好的数据进行有监督微调

Bidirectional Encoder双向Encoder实质上就是指Transformer中的encoder,双向是指在self-attention的每个位置能看到左/右两侧的上下文信息

BERT由两大部分组成

1.预训练

有两种预训练任务

(1)Masked LM

 每个sentence随机masked掉15%的token。因为在微调时候是没有[MASK]这个特殊token的,为了弥补预训练和微调时的这个mismatch,作者采用如下策略:

1.80%的概率为[MASK]

2.10%的概率是随机的token

3.10%的概率不改变,仍是原来的token

(2)NSP, Next Sentence Prediction

输入两个句子A和B,B有50%的概率是A的下一句,50%的概率不是。采用[CLS]对应的输出向量进行二分类训练

2.微调

预训练好的模型参数也全部参与训练

额外增加一个输出层进行训练。

本质是分类模型:[CLS]对应输出向量用于整个分类,其余token对应的输出向量用于token-level的分类。用softmax函数实现多分类

网络结构

BERT-BASE,   L=12, H=768, A=12,110M即1.1亿参数(和GPT-1具有相近参数)

BERT-LARGE, L=24, H=1024, A=24,340M即3.4亿参数

输入输出表示

为了兼容多种下游任务,BERT输入可以是一个句子或者两个句子,统称为一个Sequence

采用WordPiece embeddings,这样输入字典为3w个token(以空格区分,每个单词作为token的话,字典会非常大)

输入的第一个token永远是[CLS],[CLS]的BERT输出向量(维度也为H)可用于整个句子的分类

每个输入句子后面都跟一个分隔符[SEP],因此输入句子对pair的话会有两个[SEP]

每个输入token的embedding由三部分组成,三个embedding都是通过网络学习得到的


http://www.ppmy.cn/news/85998.html

相关文章

VMware ESXi 6.5 U3 Final - ESXi 6 系列最终版下载

VMware ESXi 6.5 U3 Final - ESXi 6 系列最终版下载 VMware ESXi 6 Standard 请访问原文链接:https://sysin.org/blog/vmware-esxi-6/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org VersionRelease NameRelease …

无需公网IP,在家SSH远程连接公司内网服务器「cpolar内网穿透」

文章目录 视频教程1. Linux CentOS安装cpolar2. 创建TCP隧道3. 随机地址公网远程连接4. 固定TCP地址5. 使用固定公网TCP地址SSH远程 转载自cpolar内网穿透的文章:无公网IP,SSH远程连接Linux CentOS【内网穿透】 本次教程我们来实现如何在外公网环境下&am…

BI技巧丨度量值的动态格式字符串

2023年4月版本新增了度量值的动态格式字符串功能。从字面上看可能小伙伴们不是很理解这个功能的用途,这里白茶给大家解释一下。 通俗一点来说,就是可以在数值中加入文本,将其转化为字符串,而不改变其原有的数据类型。 看到这里&…

使用SMTP协议发送邮件

剧情介绍 今天心血来潮,学了一下Python3,里面有个章节是发送邮件,用示例里面的代码,运行后报错,然后记录一下问题是如何解决的,大家可以看一下,可以有效避坑。 SMTP简介 SMTP是一种提供可靠且…

Vue实现下载文件而非浏览器直接打开

问题背景 对于一个txt文本、图片、视频、音频等浏览器可以直接使用浏览器进行预览的文件, 使用传统的a标签加download属性进行下载是行不通的,会在浏览器直接打开,因此需要搞一个新的方式进行下载。 实现流程 实现思路 这里使用Vue自定义…

Milk -v 开发板烧录系统以及ssh连接

Milk -v 开发板烧录系统以及ssh连接 0. 前言1. 系统下载2. 驱动安装3. ssh连接 0. 前言 操作系统:Windows10 专业版 开发板:Milk -v 准备读卡器、内存卡、Typec 数据线 Milk-V开发板官方文档 到手后它的外形和宣传图片是一致的,但是更加的…

FreeRTOS:队列

目录 前言一、队列简介1.1数据存储1.2多任务访问1.3出队阻塞1.4入队阻塞1.5队列操作过程图示1.5.1创建队列1.5.2向队列发送第一个消息1.5.3向队列发送第二个消息1.5.4从队列中读取消息 二、队列结构体三、队列创建3.1创建函数3.2函数xQueueCreateStatic()3.3函数xQueueCreate()…

中移链合约常用开发介绍(五)合约项目编译

01 目的 本文档介绍了工程化开发智能合约项目的工程树目录,介绍了各个文件夹及文件的含义和用途。本文档将沿用之前文章中实现的地址簿合约内容,以初始化项目为例展开介绍,适合刚接触合约开发的开发人员用来了解智能合约项目,帮…