【NLP】文本预处理的概念、处理方法、数学公式

文章目录

1、简介及其作用
2、文本处理的基本方法
- 2.1、分词
- 2.2、词性标注
- 2.3、命名实体识别（NER）
3、文本张量表示方法
- 3.1、One-Hot 编码
- 3.2、Word2Vec
- 3.3、词嵌入（Word Embedding）
4、文本语料的数据分析
- 4.1、标签数量分布
- 4.2、句子长度分布
- 4.3、词频统计与关键词词云
5、文本特征处理
- 5.1、添加 n-gram 特征
- 5.2、文本长度规范
6、数据增强方法
7、文本预处理的具体实例
- 7.1、中文文本预处理实例
- 7.2、英文文本预处理实例
8、小结

🍃作者介绍：双非本科大三网络工程专业在读，阿里云专家博主，专注于Java领域学习，擅长web应用开发、数据结构和算法，初步涉猎人工智能和前端开发。
🦅个人主页：@逐梦苍穹
📕所属专栏：人工智能
🌻gitee地址：xzl的人工智能代码仓库
✈ 您的一键三连，是我创作的最大动力🌹

1、简介及其作用

在自然语言处理（NLP）任务中，文本预处理是至关重要的一步。
未经处理的原始文本通常杂乱无章，无法直接用于机器学习模型。
通过一系列预处理步骤，文本被转化为规范化的数据格式，从而满足模型输入的要求。
此外，科学的文本预处理还能够有效指导模型超参数的选择，提升模型的评估指标，进而增强整体性能。
本文主要内容：

1. 文本处理的基本方法
2. 文本张量表示方法
3. 文本语料的数据分析
4. 文本特征处理
5. 数据增强方法

在实际生产应用中，我们最常使用的两种语言是中文和英文，因此文本预处理部分的内容都将针对这两种语言进行讲解。

2、文本处理的基本方法

2.1、分词

定义：将连续的文本序列分割成词语序列，是文本预处理的第一步，特别是在中文中。
方法：

基于规则的分词：使用语言学规则和词典进行分词。
基于统计的分词：利用统计模型（如 $n - g r am$ 、 $H MM$ ）进行分词。
基于深度学习的分词：使用神经网络模型（如 $B i L STM - CRF$ 、 $BERT$ ）进行分词。

数学表示：
令 $T$ 为输入的文本序列， $w_1, w_2, \ldots, w_n$ 为分词结果;
分词过程可以表示为： $\rightarrow \{w_1, w_2, \ldots, w_n\}$

2.2、词性标注

定义：为每个词语标注其词性（如名词、动词、形容词等）。
方法：

基于规则的方法：使用预定义的规则和词典。
基于统计的方法：如 $H MM$ 和 $CRF$ 。
基于深度学习的方法：如 $B i L STM - CRF$ 模型。

数学表示：
令 $w_i$ 为词语， $t_i$ 为对应的词性标签
词性标注过程可以表示为： $\{w_1, w_2, \ldots, w_n\} \rightarrow \{(w_1, t_1), (w_2, t_2), \ldots, (w_n, t_n)\}$

2.3、命名实体识别（NER）

定义：识别并分类文本中的实体，如人名、地名、组织名等。
方法：

基于规则的方法：使用预定义的规则和词典。
基于统计的方法：如 $CRF$ 。
基于深度学习的方法：如 $B i L STM - CRF$ 和 $T r an s f or m er$ 模型。

数学表示：
令 $T$ 为输入的文本序列， $E$ 为命名实体的集合。
$NER$ 过程可以表示为： $\rightarrow \{E_1, E_2, \ldots, E_m\}$

3、文本张量表示方法

3.1、One-Hot 编码

定义：将每个词表示为一个高维向量，其中只有一个位置为1，其他位置为0。
方法：

构建词汇表 $V$ ，大小为 $∣ V ∣$ 。
对于词汇表中的每个词 $w_i$ ，构建一个长度为 $∣ V ∣$ 的向量，其中第 $i$ 个位置为1，其余位置为0。

数学表示：
令 $V$ 为词汇表， $∣ V ∣$ 为词汇表的大小
对于词语 $w_i$ 的 One-Hot 编码可以表示为： $\text{OneHot}(w_i) = [0, 0, \ldots, 1, \ldots, 0]$
其中，只有第 $i$ 个位置为1，其余位置为0。

3.2、Word2Vec

定义：通过神经网络将词语映射到低维向量空间，捕捉词语的语义相似性。
方法：

Skip-gram：通过预测上下文词来训练词向量。
CBOW（Continuous Bag of Words）：通过上下文词预测目标词来训练词向量。

数学表示：
令 $w$ 为目标词， $C (w)$ 为上下文词的集合。 $S ki p$ - $g r am$ 模型的目标是最大化以下概率：
$\prod_{w \in \text{Corpus}} \prod_{c \in C(w)} P(c|w)$

这个公式是表示累积
其中， $P (c ∣ w)$ 是通过 $so f t ma x$ 函数计算的：
$\frac{\exp(v_c \cdot v_w)}{\sum_{i=1}^{|V|} \exp(v_i \cdot v_w)}$

所以表示为： $\prod_{w \in \text{Corpus}} \prod_{c \in C(w)} \frac{\exp(v_c \cdot v_w)}{\sum_{i=1}^{|V|} \exp(v_i \cdot v_w)}$

3.3、词嵌入（Word Embedding）

定义：通过深度学习模型（如 $Gl o V e$ 、 $F a s tT e x t$ ）训练的词向量，能够捕捉词语的复杂语义关系。
数学表示：
令 $W$ 为词汇表， $d$ 为词向量的维度。
词嵌入过程可以表示为将每个词 $w$ 映射到一个 $d$ 维向量 $v_w$ ： $\rightarrow v_w \in \mathbb{R}^d$

4、文本语料的数据分析

4.1、标签数量分布

定义：分析数据集中各类标签的数量分布，评估数据的平衡性。
方法：

统计每个标签在数据集中出现的频率。
绘制标签数量分布图，如条形图。

数学表示：
令 $y$ 为标签， $n (y)$ 为标签 $y$ 在数据集中出现的次数
标签数量分布可以表示为： $\{(y_1, n(y_1)), (y_2, n(y_2)), \ldots, (y_k, n(y_k))\}$

4.2、句子长度分布

定义：分析数据集中句子的长度分布，了解数据的整体结构。
方法：

统计每个句子的长度。
绘制句子长度分布图，如直方图。

数学表示：
令 $s$ 为句子， $l (s)$ 为句子 $s$ 的长度。
句子长度分布可以表示为： $\{(s_1, l(s_1)), (s_2, l(s_2)), \ldots, (s_n, l(s_n))\}$

4.3、词频统计与关键词词云

定义：统计词语在数据集中出现的频率，生成关键词词云，帮助识别重要词语。
方法：

统计每个词语在数据集中出现的频率。
利用 Python 库（如 $N L T K$ 、 $W or d Cl o u d$ ）生成词频统计和词云图。

数学表示：
令 $w$ 为词语， $f (w)$ 为词语 $w$ 在数据集中出现的频率。
词频统计可以表示为： $\{(w_1, f(w_1)), (w_2, f(w_2)), \ldots, (w_m, f(w_m))\}$

5、文本特征处理

5.1、添加 n-gram 特征

定义：将相邻 $n$ 个词作为一个特征，捕捉局部词组信息。
方法：使用 Python 库（如 $sc iki t$ - $l e a r n$ ）生成 $n$ -gram 特征。
数学表示：
令 $T$ 为文本序列， $w_i$ 为词语。 $n$ -gram 特征可以表示为：
$\{(w_i, w_{i+1}, \ldots, w_{i+n-1}) \}$

5.2、文本长度规范

定义：规范文本长度，以确保输入张量的一致性。
方法：截断或填充文本，使其达到固定长度。
数学表示：
令 $T$ 为文本序列， $L$ 为固定长度
规范文本长度可以表示为： $\rightarrow T'$
其中， $T^{'}$ 为长度为 $L$ 的文本序列。

6、数据增强方法

回译数据增强法：
定义：通过将文本翻译成另一种语言再翻译回来，生成新的变体。
方法：使用机器翻译工具（如 $G oo g l e$ $T r an s l a t e$ $A P I$ ）进行回译。
数学表示：
令 $T$ 为原始文本， $T^{'};$ 为回译后的文本
回译过程可以表示为： $\rightarrow T'$