【学习草稿】bert文本分类

news/2024/12/22 16:40:49/

https://github.com/google-research/bert
https://github.com/CyberZHG/keras-bert

在 BERT 中,每个单词的嵌入向量由三部分组成:

Token 嵌入向量:该向量是 WordPiece 分词算法得到的子单词 ID 对应的嵌入向量。

Segment 嵌入向量:该向量用于表示每个单词所属的句子。对于一个包含两个句子的序列,使用0表示第一个句子,使用1表示第二个句子。对于一个只包含一个句子的序列,将所有的句子标记都设置为0。

Position 嵌入向量:该向量用于表示每个单词在序列中的位置。对于一个长度为L的序列,每个单词都会被分配一个表示其位置的向量,该向量的维度为d,其中d是嵌入向量的维度。

这三个向量会被按照一定的方式进行组合,得到一个最终的嵌入向量,用于表示当前单词在上下文中的语义信息。这个嵌入向量会作为输入序列的一部分,输入到模型中进行训练或推理。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
return [“”.join(x) for x in output]

return [“”.join(x) for x in output]是一个列表推导式,用于将output列表中的子列表转换为字符串列表。

具体来说,output列表中的每个子列表表示一个单词,其中包含了该单词中的所有字符。例如,对于输入文本Hello, world!,_run_split_on_punc()函数会将其分割成一个包含5个子列表的列表[[‘H’, ‘e’, ‘l’, ‘l’, ‘o’], [‘,’], [’ ‘], [‘w’, ‘o’, ‘r’, ‘l’, ‘d’], [’!']],其中每个子列表表示一个单词。

列表推导式[“”.join(x) for x in output]的作用是将每个子列表中的字符拼接成一个字符串,并将这些字符串组合成一个新的字符串列表。具体来说,“”.join(x)将一个子列表中的所有字符拼接成一个字符串,而[“”.join(x) for x in output]则将output列表中的每个子列表都转换为一个字符串,并将这些字符串组合成一个新的列表。

例如,对于输入文本Hello, world!,_run_split_on_punc()函数会将其分割成一个包含5个子列表的列表[[‘H’, ‘e’, ‘l’, ‘l’, ‘o’], [‘,’], [’ ‘], [‘w’, ‘o’, ‘r’, ‘l’, ‘d’], [’!']],而列表推导式[“”.join(x) for x in output]则会将这些子列表转换为一个新的字符串列表[‘Hello’, ‘,’, ’ ', ‘world’, ‘!’],其中每个字符串表示一个单词。
在这里插入图片描述
打印格式问题,才会有空格。。

在这里插入图片描述
在这里插入图片描述

![在这里插入图片描述](https://img-blog.csdnimg.cn/56628d678330476fab698daf7d8c5703.png在这里插入图片描述


http://www.ppmy.cn/news/1167637.html

相关文章

面试算法32:有效的变位词

题目 给定两个字符串s和t,请判断它们是不是一组变位词。在一组变位词中,它们中的字符及每个字符出现的次数都相同,但字符的顺序不能相同。例如,"anagram"和"nagaram"就是一组变位词。 分析 如果只考虑英文…

CV计算机视觉每日开源代码Paper with code速览-2023.10.20

精华置顶 墙裂推荐!小白如何1个月系统学习CV核心知识:链接 点击CV计算机视觉,关注更多CV干货 论文已打包,点击进入—>下载界面 点击加入—>CV计算机视觉交流群 1.【目标检测】Click on Mask: A Labor-efficient Annotati…

PCA降维可视化

二维 import pandas as pd import warnings warnings.filterwarnings("ignore")df pd.read_csv(data/data.csv).dropna() features df.columns[:-1] X, y df[features], df[label]from sklearn.preprocessing import MinMaxScaler # 创建MinMaxScaler对象 scaler…

【Python numpy】创建Ndarray数组对象

文章目录 前言一、numpy.array()函数1.1 函数基本介绍1.2 示例代码创建一个包含整数的一维数组创建一个指定数据类型的一维数组创建一个多维数组创建一个具有最小维度要求的数组 二、numpy.empty()函数2.1 empty()函数介绍2.2 示例代码创建一个未初始化的一维数组创建一个未初始…

【自用】C++ 知识点总结Ⅱ:异常、IO流、类型转化、C++11新特新、STL、设计模式...(待更新)

文章目录 五、异常六、IO 流七、C 类型转化static_castdynamic_castconst_castreinterpret_caststatic_cast 和dynamic_cast 的区别? 八、C 11智能指针🔺什么是循环引用?如何解决?解决原理?🔺定制删除器&am…

轻松实现批量转换,将JPG图片一键转换为PNG格式!

在处理大量图片时,将JPG格式图片转换为PNG格式可能会耗费您大量的时间和精力。为了让您的工作更加轻松,我们为您推出了一款高效的批量图片处理工具,让您能够轻松将JPG图片一键转换为PNG格式,提高处理效率! 首先&#…

WMS透明仓库:实现仓储的全方位可视化与优化

一、WMS透明仓库的定义与特点 1. WMS透明仓库的定义:WMS透明仓库是一种基于信息技术的仓库管理系统,通过实时数据采集、分析和可视化,将仓库内外的物流流程、库存状态、人员活动等信息以透明的方式展示给相关利益方。 2. 实时数据采集&…

蓝桥杯(刷题统计,特别数的和 C++)

思路: 1、这题很简单,分两种情况累加和 ,(day%60||day%70)即周六周天加上b,其它时候加上a。 2、注意的点在于数据可能达到,所以数据类型首先要开long long。 3、因为数据达到,所以直…