深度学习-15-深入理解BERT的子词Tokenization算法

server/2024/9/23 0:13:34/

文章目录

  • 1 子词Tokenization算法简介
    • 1.1 单词级的Tokenization
    • 1.2 子词Tokenization技术
  • 2 常见的子词Tokenization算法
    • 2.1 字节对编码BPE
    • 2.2 字节级字节对编码BBPE
    • 2.3 WordPiece
  • 3 参考附录

BERT(Bidirectional Encoder Representations from Transformers)

1 子词Tokenization算法简介

子词Tokenization(可以理解为分词)在很多SOTA NLP模型上得到广泛的使用,包括BERT和GPT-3。
它能很有效的处理未登陆词。

1.1 单词级的Tokenization

假设我们有一个训练数据集。
我们从这个训练数据集中构建一个词表。
为了构建该词表,我们将数据集中的文本拆分成单词,然后把唯一的单词加入到词表。
通常,词表包含很多单词(标记),为了举例的简单,假设我们的词表只包含下面的单词:

vocabulary = [game, the, I, played, walked, enjoy]

现在我们有了词表,然后我们基于该词表来对输入进行分词。
考虑输入句子​​I played the game​​​。
在英文中,


http://www.ppmy.cn/server/120537.html

相关文章

【机器学习】OpenCV入门与基础知识

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 OpenCV入门与基础知识简介安装与环境配置WindowsLinuxmacOS 核心数据结构MatSca…

【CS110L】Rust语言 Lecture3-4 笔记

文章目录 第三讲 所有权:移动与借用&例1例2例3 错误处理(开头)为什么空指针如此危险,我们能做什么以应对?— 引出Optionis_none()函数unwrap_or()函数常见用法 第四讲 代码实践:链表Box节点和链表的定义节点和链表的构造函数判…

C++——求3*3矩阵对角元素之和。

没注释的源代码 #include <iostream> using namespace std; int main() { int a[3][3],i,j,sum0; cout<<"请输入a组中的元素:"<<endl; for(i0;i<2;i) { for(j0;j<2;j) { cin>>a[i][j]…

微信小程序认证流程

官方描述&#xff1a; 微信接口服务&#xff1a;即微信服务器。 具体的流程如下&#xff1a; 1.前端调用wx.login()获取登录凭证code 2.前端请求后端进行认证&#xff0c;发送code 3.后端请求微信获取openid 4.后端生成认证成功凭证返回给前端。 说明 调用 wx.login() 获…

深入理解Python中的时间表示:Unix时间点、毫秒和微秒,以及time模块

本套课程在线学习视频 ​​https://pan.quark.cn/s/3a470a7bbe67​​ 时间处理是编程中一项重要的任务&#xff0c;尤其是在涉及到时间戳、日志记录和调度等场景时。Python提供了强大的时间处理功能&#xff0c;特别是通过​​time​​模块。本文将探讨Python中的时间表示&am…

【宠物小精灵之收服(待更新)】

题目 代码 #include <bits/stdc.h> using namespace std; int f[1010][510]; int main() {int n, m, k;cin >> n >> m >> k;int c 0;for(int i 1; i < k; i){int cost, hp;cin >> cost >> hp;for(int j n; j > cost; j--){for(i…

eureka.client.service-url.defaultZone的坑

错误的配置 eureka: client: service-url: default-zone: http://192.168.100.10:8080/eureka正确的配置 eureka: client: service-url: defaultZone: http://192.168.100.10:8080/eureka根据错误日志堆栈打断电调试 出现两个key&#xff0c;也就是defaultZone不支持snake-c…

KTH5762系列 低功耗、高精度 3D 霍尔角度传感器 电子手表旋钮应用

KTH5762系列 低功耗、高精度 3D 霍尔角度传感器 电子手表旋钮应用 KTH5762AQ3DNE 概述 KTH5762 是一款集成了高度匹配霍尔元件的3D (XY、 XZ 、 YZ 平面 ) 霍尔角度传感器&#xff0c;集成低功 耗&#xff0c;低噪声&#xff0c;高精度零漂运放&#xff0c;高性能&#xff…