NLP学习笔记三-数据处理基础
NLP设计的处理处理技术也比较多,我们简单介绍一部分:
1.Tokenization
NLP当中的Tokenization,博主以前无论是在文章中还是在代码中都能经常看到,这在自然语言处理中也是比较常用的技术。
Tokenization其实就是把文本转化成单词列表。
如上图,给与一个文本,将其拆分成一个个的单词就可以了。
2.count word frequencies
count word frequencies其实顾名思义,就是统计词频,这一步其实是在Tokenization的基础上进行的,首先我们需要先对文本进行Tokenization操作,然后,统计有多少种词语,再统计这些词语分别的个数。
统计词频可以用于保留常用词去掉低频词
3.one-hot encoding
这一步,与前一篇文章 说的比较相似,就是将词语进行词向量转化,当然这一步其实一部分工作在2中有一些做过了,比如词向量转化肯定是要进行单词统计的。
如下图所示哈: