jieba分词的停用词问题

jieba分词的停用词问题

news/2024/11/23 13:37:50/

去掉停用词一般要自己写个去除的函数(def....)，一般的思想是先分好词，然后看看分的词在不在停用词表中，在就remove，最后呈现的结果就是去掉停用词的分词结果。

后来找到一个jieba.analyse.set_stop_words(filename)，以为可以直接设置一下停用词文件分词时就自动给我去除了，没想到分词的结果根本没有任何改变！

找了半天资料，又看了下jieba包里analyse文件夹里的各py文件，发现这个是为了作关键词提取用的，也就是：

用jieba.analyse.extract_tags时，设置jieba.analyse.set_stop_words才有用！

用jieba.lcut时，设置jieba.analyse.set_stop_words根本没有用！

比较了一下二者的最后结果，关键词提取的结果是简洁明了而且囊括了不少关键词，但是还是有些词没有包括进来，所以，如果想去除停用词+较为全面的分词结果，还是老老实实的自己写方法吧！

最后再附上比较全的一个停用词表：

https://github.com/goto456/stopwords

http://www.ppmy.cn/news/623389.html

相关文章

2750个通用停用词表整理，免费下载

2750个通用停用词表整理，免费下载

中文停用词表下载一共2750个停用词，属于通用停用词表。下载地址： 链接：https://pan.baidu.com/s/1u-Ob86VGVSk3vhnwf2S29w 提取码：aoj4 停用词表整理代码下载了很多网上的通用停用词表，同时合并了我们实验室的停用…

阅读更多...

NLTK获取停用词

NLTK获取停用词

NLTK获取停用词 import nltk from nltk.corpus import stopwords stopset set(stopwords.words(english)){here, they, over, "youd", at, more, "doesnt", again, isn, once, your, their, will, having, nor, them, "thatll", the, "sh…

阅读更多...

导致谷歌账号停用的原因

导致谷歌账号停用的原因

导致谷歌账号停用的原因,进来看看你属于哪一个 1、多设备短时间通过不同IP登录通常google 只要检测到 3 个不同设备的 IP 不同，就会大概率账号异常或者直接停用，如果继续再次异地登陆一定停用。 2、关联IP异常被连累通常一个IP短时间大量注册Googl…

阅读更多...

计算机用户被停用,Win10电脑中Administrator账户被停用如何解决

计算机用户被停用,Win10电脑中Administrator账户被停用如何解决

如今很多用户都已经开始安装win10系统了，而在使用的过程中由于不熟悉经常会出现一些错误的操作导致出现一些问题，就有win10电脑用户不小心删除了本地管理员账户，然后系统内置的Administrator账户默认又是禁用的，所以开机都会提示A…

阅读更多...

英文停用词列表

英文停用词列表

为了便于处理英文文档时，进行去停用词，现贴出常用的英文停用词： stoplist [very, ourselves, am, doesn, through, me, against, up, just, her, ours, couldn, because, is, isn, it, only, in, such, too, mustn, under, their, if, to, …

阅读更多...

自然语言处理-停用词

自然语言处理-停用词

[做一个搬运工，信息来自百度百科] 停用词停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words…

阅读更多...

中文停用词表和英文停用词表

中文停用词表和英文停用词表

最近在做一些基本的中英文NLP任务，其中在过滤掉文本中的特殊字符、对文本进行分词之后，要去除文本中的停用词，所以从网上找了两个中英文的停用词表，传到博客里方便以后使用。中文分词列表链接：https://pan.baidu.com…

阅读更多...

手机html己停用怎么办,iphone手机出现已停用请五分钟再试怎么办

手机html己停用怎么办,iphone手机出现已停用请五分钟再试怎么办

iphone手机出现已停用请五分钟再试怎么办当苹果手机出现了iphone已停用请五分钟再试怎么办呢，下面小编介绍一下。具体如下： 1. 当解锁苹果手机时，连续输错了四次密码后，会出现1分钟后才能继续输入密码 2. 如果1分钟后，输入的密码还是错误的，那么手机将被锁定5分钟 3. 如…

阅读更多...

最新文章