tokenizer、tokenizer.encode、tokenizer.encode_plus比较

news/2024/12/27 10:05:20/

一、概念

        在我们使用Transformers库进行自然语言处理任务建模的过程中,基本离不开Tokenizer类。我们需要这些Tokenizer类来帮助我们加载预训练模型的分词模块,并将文本转化为预训练模型可接受的输入格式。

        而在实际建模的实践中,我们参考优秀的开源代码,时常会见到对Tokenizer类的不同应用方式和场景,例如实例化某个Tokenizer类并调用.tokenize()方法,又或者调用.encode()方法、.encode_plus()方法。这里,我们对这些方法的具体应用场景进行说明。

二、比较

        Transformers中几乎所有的Tokenizer类都继承了同一个超类,即PreTrainedTokenizer。下面我们以BertTokenizer为例,对以下四个通用的类方法的作用分别进行讲解。

1、tokenizer(input_texts)/tokenizer.encode_plus(input_texts)

        对于输入文本,我们可以直接使用tokenizer(input_texts, padding=True, truncation=True, return_tensors="pt")或者tokenizer.encode_plus(input_texts, padding=True, truncation=True, return_tensors="pt")对文本进行编码,二者几乎等价。该方法返回一个字典,分别包含“input_ids”、“token_type_ids”和“attention_mask”三个键以及对应的取值。我们可以设置return_tensors='pt'来让这些值都是tensor类型,便于输入AutoModel中。

        参数方面,我们需要关注的主要参数如下:

  • padding:设置为True或者longest则填充到批次中的最长序列(如果只提供单个序列,则不进行填充);设置为max_length则填充到用参数max_length指定的最大长度,或者如果未提供该参数,则填充到模型可接受的最大输入长度;设置为False或者do_not_pad则不进行填充(即可以输出一个包含不同长度序列的批次),默认为此设置。
  • truncation:设置为True或longest_first则截断到用参数max_length指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度;设置为False或do_not_truncate(默认值)则不截断。
  • max_length:如果未设置或设置为None,在截断/填充参数需要最大长度时,将使用预定义的模型最大长度。
  • return_tensors:默认None,如果设置了该值,将返回张量而不是Python整数列表。可接受的值有“tf”(返回 TensorFlow 的 tf.constant 对象)、“pt”(返回 PyTorch 的 torch.Tensor 对象)、“np”(返回 Numpy 的 np.ndarray 对象)。
python">from transformers import BertTokenizertext = 'we are learning python, which is one of the most popular programming languages in the world.'
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
outputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt")
# outputs = tokenizer.encode_plus(text, padding=True, truncation=True, return_tensors="pt")
for key in outputs.keys():print(key, outputs[key])

e675022fc8fa44398e85d879ae158b3a.png

2、tokenizer.tokenize(input_texts)

        tokenizer.tokenize(input_texts)仅对输入的文本进行分词,返回的是列表类型,包含的对每个输入句子的Word Piece级分词结果。

python">from transformers import BertTokenizertext = 'we are learning python, which is one of the most popular programming languages in the world.'
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
outputs = tokenizer.tokenize(text)
print(outputs)

        这里再重温一下Word Piece分词。预训练模型的词典固然庞大,但是我们无法无限扩大词典的规模,这样很低效。而且,很多单词的词根是相同的,这意味着我们通过使用几个词根的组合,就可以表示多个单词从而提高存储效率,这就有了Word Piece分词。

        举一个简单的例子,假设有单词“try”、“trying”、“learn”、“learning”,如果全部存储原词则需要存储4个词,而如果我们把“ing”拆出来,我们会发现只需要存储3个Token(即“learn”、“try”和“#ing”),且通过这三个Token的组合可以完美表示上面的所有单词,这就节省了25%的存储空间!当然,不同的预训练模型Word Piece词典的结构各有不同,例如这里bert-base-cased模型对于“learning”就是原词存储的。

2544ca1d4549407f840e8b8ea62af8da.png

3、tokenizer.encode(input_texts)

        tokenizer.encode(input_texts, padding=True, truncation=True, return_tensors="pt")方法综合了分词+索引编码两个方法(tokenize()+convert_tokens_to_ids()),先对文本进行分词,然后匹配对应的词索引,返回Token索引列表。对于该索引列表,返回结果中默认包含开头的[CLS]索引和结尾的[SEP]索引。

python">from transformers import BertTokenizertext = 'we are learning python, which is one of the most popular programming languages in the world.'
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
outputs = tokenizer.encode(text, padding=True, truncation=True, return_tensors="pt")
print(outputs)

b29d20ed3df6440faf58757bf0e8fbe8.png

        有encode自然有decode,tokenizer.decode可以将编码后的索引列表转换回分词列表,使用tokenizer.decode(input_ids, skip_special_tokens=False)即可,需要注意的是decode的输入类型为list而不是tensor,所以在encode的时候不设置return_tensors参数。此外,如果我们将skip_special_tokens参数设置为False默认会返回[CLS]和[SEP]两个特殊Token标记,这是Bert类模型的输入格式要求,设置为True则返回不带特殊Token的原始文本(不是Word Piece)

python">from transformers import BertTokenizertext = 'we are learning python, which is one of the most popular programming languages in the world.'
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
outputs = tokenizer.encode(text, padding=True, truncation=True)
print('Encode:', outputs)
outputs = tokenizer.decode(outputs, skip_special_tokens=False)
print('Decode:', outputs)

55769a3a7fe74852bb788ab7e2c6b3aa.png

 


http://www.ppmy.cn/news/1558207.html

相关文章

【笔记】如何在ubuntu中设置静态ip地址

连接finalshell发现ip地址总变连接起来十分的麻烦 首先是进入ubuntu的网络配置文件 sudo vim /etc/netplan/01-network-manager-all.yaml 默认只有前面那三行 后面的需要自己添加 network: version: 2 renderer: NetworkManager ethernets: ens33: dhcp4:…

MySQL-MVCC(多版本并发控制)

MySQL中的MVCC(Multi-Version Concurrency Control)是一种并发控制机制,用于提供读-写冲突时的可靠读取。 MVCC通过保存数据在某个时间点的快照来实现这一点,从而避免了传统的锁定方法。在InnoDB存储引擎中,MVCC是通过…

使用envoyfilter添加请求头

该envoyfilter实现了这样一个功能,如果请求头中含有Sw8,则添加请求头HasSw8: true。 1. 内嵌lua脚本 apiVersion: networking.istio.io/v1alpha3 kind: EnvoyFilter metadata:name: add-header-filternamespace: demo-bookinfo # 可根据实际情况调整命…

React 前端框架入门

这里写目录标题 React 前端框架入门什么是 React?核心特性基本概念1. JSX2. 组件3. State 和 Props4. 生命周期5. React Hooks React 应用示例项目结构如何启动 React 项目参考资料 React 前端框架入门 什么是 React? React 是由 Facebook 开发并开源的…

【JAVA高级篇教学】第五篇:OpenFeign 微服务调用注意事项

在微服务架构中,OpenFeign 是一种常用的 HTTP 客户端工具,用于实现服务之间的调用。它提供了声明式的接口调用方式,大幅简化了开发工作。然而,在实际使用中,需要注意一些细节,尤其是在处理 GET、POST 请求和…

开关电源特点、分类、工作方式

什么叫开关电源随着电力电子技术的发展和创新,使得开关电源技术也在不断地创新。目前,开关电源以小型、轻量和高效率的特点被广泛应用几乎所有的电子设备,是当今电子信息产业飞速发展不可缺少的一种电源方式。 开关电源是利用现代电力电子技…

MySQL三层B+树能存多少数据

结论 bigint类型的索引(8字节),一条数据假设是1KB的话, 三层B树 能存2000万条数据 该题主要考察数据如何在B树中存储的 计算思路 1.计算叶节点的大小 2.计算子节点的个数,由此算出第三层叶子节点的个数(n*n…

前端实习近期小结

有一小段时间没有更新了,年前的业务需求比较多而且急,今日凌晨(2点多还在修改、提交代码到库)还好这次是远程办公,忙完还可以立马洗澡休息.. 忙里偷闲,更新一下前端实习近况吧。现在写这篇博客的心情也比较…