一、概念
首先我们来看一下停用词的概念,然后来介绍使用nltk如何删除英文的停用词:
由于一些常用字或者词使用的频率相当的高,英语中比如a,the, he等,中文中比如:我、它、个等,每个页面几乎都包含了这些词汇,如果搜索引擎它们当关键字进行索引,那么所有的网站都会被索引,而且没有区分度,所以一般把这些词直接去掉,不可当做关键词。
二、使用nltk删除英文停用词
首先我import stopwords进来,代码如下:
from nltk.corpus import stopwords
words = stopwords.words('english')
print(words)
首先看看打印停用词的结果:
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', '