ScratchLLMStepByStep:训练自己的Tokenizer

devtools/2025/1/22 13:08:49/

1. 引言

分词器是每个大语言模型必不可少的组件,但每个大语言模型的分词器几乎都不相同。如果要训练自己的分词器,可以使用huggingface的tokenizers框架,tokenizers包含以下主要组件:

  1. Tokenizer: 分词器的核心组件,定义了分词的整个流程,包括标准化、预分词、模型分词、后处理等
  2. Normalizers:可选,负责将文本标准化,包括unicode归一化、大写转小写、去重音等操作
  3. Pre-tokenizers:负责将文本分割成更小的片段(如单词等),为模型分词做准备。常见的预分词器有按空格分词(Whitespace)、正则表达式分词(Regex)等
  4. Models:是实际的分词算法,负责将文本片段转换为子词,常见的有BPE、WordPiece、Unigram等。
  5. Post-Processors:负责对分词结果进行后处理,如添加特殊标记(CLS、SEP)。
  6. Decoders:负责将分词结果转换回原始文本,常见的解码器有 ByteLevel、WordPiece 等。
  7. Trainers:用于训练分词模型,不同的模型对应不同的训练器,如 BpeTrainer、WordPieceT

http://www.ppmy.cn/devtools/152604.html

相关文章

C语言小任务——1000以内含有9的数字

步骤 第一步:分类 含有九的可能的情况: 个位有9,十位有9,百位有9,而根据组合数,我们可以得出,一共有7种情况,分别是 9##,#9#,##9, 99#,9#9,#…

Web3 游戏周报(1.13 - 1.19)

回顾上周的区块链游戏概况,查看 Footprint Analytics 与 ABGA 最新发布的数据报告。 【1.13–1.19】Web3 游戏行业动态 索尼区块解决方案实验室 (Sony BSL) 宣布其以太坊 L2 区块链 Soneium 主网上线。Hyve Labs 融资 275 万美元,推动 Web3 游戏基础设…

PortSwigger靶场练习---网页 LLM 攻击:过度授权下利用LLM API

网页 LLM 攻击:Exploiting LLM APIs with excessive agency 过度授权下利用LLM API PortSwigger靶场地址: Dashboard | Web Security Academy - PortSwigger 题目: 官方提示: 从实验室主页选择实时聊天。 询问LLM它有权访问哪…

Kotlin语言的数据结构

Kotlin语言的数据结构深度探究 Kotlin是一种现代的编程语言,因其简洁、强大且安全的特性而受到广泛欢迎。在Kotlin中,数据结构的有效使用可以大大提高代码的可读性和执行效率。本文将详细探讨Kotlin中的各种数据结构,包括列表(Li…

深度学习中Batch Normalization(BN)原理、作用浅析

最近做剪枝学习,其中一种是基于BN层的γ作为缩放因子进行剪枝的,那么我想搞懂BN的工作原理更好的理解网络、剪枝等,所以有了该文。 首先先说BN的作用在详细拆解,理解。以知乎一条高赞评论说明BN层到底在干什么。 Batch Norm 为什…

一文速通stack和queue的理解与使用

CSTL之stack和queue 1.stack1.1.stack的基本概念1.2.stack的接口 2.queue2.1.queue的基本概念2.2.queue的接口 3.priority_queue3.1.priority_queue的基本概念3.2.priority_queue的接口3.3.仿函数 4.容器适配器5.deque5.1.deque的简单了解5.2.deque的优缺点 🌟&…

【Vim Masterclass 笔记18】第八章 + S08L35:Vim 的可视化模式(二)

文章目录 S08L35 Visual Mode - Part 21 利用可视化模式控制代码块的缩进2 缩进宽度的设置3 仅对选中区域执行替换操作4 利用可视化模式实现文本对齐 写在前面 本篇为 Vim 可视化模式的第二部分,主要介绍了可视化模式在代码缩进方面的应用。该视频应该录制于 2018 年…

UE5 开启“Python Remote Execution“

demo 代码 remote_execution.py 远程调用UE5 python代码-CSDN博客 在启用 Unreal Engine 5(UE5)的“Python 远程执行”功能后,UE5 会启动一个 UDP 组播套接字服务,以监听来自外部应用程序的 Python 命令。 具体行为如下&#xf…