Spark MLlib 特征工程系列—特征转换Tokenizer和移除停用词
Tokenizer和RegexTokenizer
在Spark中,Tokenizer
和 RegexTokenizer
都是用于文本处理的工具,主要用于将字符串分割成单词(tokens),但它们的工作方式和使用场景有所不同。
1. Tokenizer
- 功能:
Tokenizer
是最简单的分词器,它基于空格(whitespace)将输入的字符串分割成单词。 - 工作原理:
Tokenizer
将一个句子按照空格进行分割,比如 “Hello Spark world” 会被分割成["Hello", "Spark", "world"]
。 - 适用场景: 适用于简单的分词任务,当文本中的单词之间以空格分隔且没有特殊符号时可以使用。
代码示例: