中文停用词表下载
一共2750个停用词,属于通用停用词表。
下载地址:
链接:https://pan.baidu.com/s/1u-Ob86VGVSk3vhnwf2S29w
提取码:aoj4
停用词表整理代码
下载了很多网上的通用停用词表,同时合并了我们实验室的停用词表后使用下面的代码对停用词表整理:
import osdef readfile(path): # 读取文件夹下所有的文件files = os.listdir(path)file_list = []for file in files: # 遍历文件夹if not os.path.isdir(file):file_list.append(path + '/' + file)return file_listdef combine_main():clean_words = []file_list = readfile('words') # 把所有的停用词表都放在words文件夹下for file in file_list:with open(file) as f:for word in f.readlines():# words is single wordif str(word) not in clean_words:clean_words.append(word)with open('clean_words.txt', 'a') as f:for word in clean_words:f.write(word)passcombine_main()