【自然语言处理】P1 自然语言处理概述

什么是自然语言处理

自然语言指的是人类的语言，如中文、英语等，处理特指使用计算机技术处理，所以自然语言处理（NLP）就是指使用计算机处理人类的语言。

自然语言处理属语言学、计算机科学、信息工程和人工智能的交叉领域，涉及的内容非常广泛。人类的语言本身是复杂的，所以自然语言处理的任务也是多种多样的。

自然语言处理中的常用术语如下：

广义地说，自然语言处理包含对各种形式地自然语言的处理（如语音识别、光学字符识别），还包括理解文字的含义（如自然语言理解），还可能需要让机器有自己组织语言的能力（即自然语言生成），甚至还需要输出这些语言（如语音合成）等。

笼统地说，人们定义自然语言处理中重点任务有两个：语言理解和语言生成。处理的对象可分为3种：词语/字、句子、篇章。

具体地说，自然语言处理的任务有如下4类：

基于规则的方法：早期自然语言处理依赖人工设定的规则，语言学家研究语言本身的规律，把归纳好的规则编写成程序，告诉计算机应该怎么做。劣势在于，简单的规则和有限的词汇无法适应多变的自然语言。
经验主义和理性主义：经验主义主张通过观察得到规律，理性主义主张通过推理而不是观察得到规律。
机器学习方法：随着数据的积累和计算机性能的提高，基于概率与统计的机器学习和深度学习方法在自然语言处理领域的表现越来越好。
- Word2vec模型（Google，2013），可以从语料中自主学习得出每个词语的向量表示，通过向量间的数学关系反映词语之间的语义关系。
- Seq2seq模型（Google，2014），在机器翻译领域的性能明显超过传统模型。
- BERT模型（Google，2018），开始采用 Transformer 框架，同时关注 encoder 和 decoder 两端。
- GPT-3模型（OpenAI，2021），同样基于自注意力机制，只关注生成部分，推出 ChatGPT 产品。
- ChatGLM、Qwen、llama 等（2022-至今）

自然语言处理任务的难题在于：自然语言的灵活多样，没有明确的规则和边界，且自然语言会随着时间而发生变化，新的词语和表达方式也可能不断出现。

实际上，人们在理解句子时，会选择自己认为更合理的意思，有一些句子虽然可以有两种意思，但是根据经验我们可以判断其确切的含义，而计算机则不然。

歧义问题：自然语言中存在大量的歧义现象，同样的文字可能有不同的含义，而同样的意思也可以用完全不同的文字来表达。
- $e . g .$ 理解歧义：“他介绍了他们公司自动化所取得的成就”
- $e . g .$ 指代歧义：“小明做了好事，老师表扬了小明，他很高兴”
语言的多样性：自然语言中，完全相同的意思可以用截然不同的方式来表达，所以自然语言处理的方法不仅要能适应自然语言的多样性，还要使输出的内容多样而自然。
未登录词：自然语言中随时可能有新词汇和新用法的出现，很多自然语言处理的方法依赖预先定义或者在学习、训练中生成的词表。未登录词就是指此词表中不存在的词语，或者训练过程中未出现过的词语。因为缺乏这些词的信息，所以处理未登录词或原有词汇的新用法是困难的。
数据稀疏：语料中，除了少数常用词汇出现的频次较高，还有很多不常用的词汇，虽然这些不常用的词汇的数量多，但是单个词汇出现的次数较少。词频出现28分布。

TF-IDF 用于评估一个词在一定范围的语料中的重要程度。

TF：词频（Term Frequency），指一个词在一定范围的语料中出现的次数，词在语料中出现的次数越多说明其越重要。
IDF：逆文本频率（Inverse Document Frequency），而出现次数很多的这个词，可能是“的”这样在所有语料中出现次数都很多的词，所以出现了逆文本频率，即这个词在某个语料中出现了，但是在整个语料库中出现得很少，就能说明这个词在这个语料中很重要。