干货 | 史上最全中文分词工具整理

news/2024/10/17 18:18:35/

作者 | fendouai

一.中文分词

 分词服务接口列表

二.准确率评测:

THULAC:与代表性分词软件的性能对比

我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

评测结果1

除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:

CNKI_journal.txt(51 MB)

评测结果2

分词数据准备及评测由BosonNLP完成:11 款开放中文分词引擎大比拼(2015年发布)

分词的客观量化测试离不开标注数据,即人工所准备的分词“标准答案”。在数据源方面,我们将测试分为: 1.新闻数据:140篇,共30517词语; 2.微博数据:200篇,共12962词语; 3.汽车论坛数据(汽车之家)100篇:共27452词语; 4.餐饮点评数据(大众点评):100条,共8295词语。

准确度计算规则:

将所有标点符号去除,不做比较

参与测试的部分系统进行了实体识别,可能造成词语认定的不统一。我们将对应位置替换成了人工标注的结果,得到准确率估算的上界。

经过以上处理,用SIGHAN 分词评分脚本比较得到最终的准确率,召回率和F1值。

以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体数据下载地址请参见附录。通过这四类数据综合对比不同分词系统的分词准确度。

不同分词系统的分词准确度对比

三.付费价格:

阿里云:

 阿里云付费价格

腾讯云:

腾讯云付费价格

玻森中文

免费额度:

 玻森中文免费额度

付费价格:

 玻森中文付费价格

四.官网

开源工具

HanLP:

https://github.com/hankcs/HanLP

结巴分词:

https://github.com/fxsjy/jieba

盘古分词:

http://pangusegment.codeplex.com/

庖丁解牛:

https://code.google.com/p/paoding/

SCWS中文分词:

http://www.xunsearch.com/scws/docs.php

高校工具

FudanNLP:

https://github.com/FudanNLP/fnlp

LTP:

http://www.ltp-cloud.com/document

THULAC:

http://thulac.thunlp.org/

NLPIR:

http://ictclas.nlpir.org/docs

商业服务

BosonNLP:

http://bosonnlp.com/dev/center   

百度NLP:

https://cloud.baidu.com/doc/NLP/NLP-API.html

搜狗分词:

http://www.sogou.com/labs/webservice/

腾讯文智:

https://cloud.tencent.com/document/product/271/2071

腾讯价格单:

https://cloud.tencent.com/document/product/271/1140

阿里云NLP:

https://data.aliyun.com/product/nlp

新浪云:

http://www.sinacloud.com/doc/sae/python/segment.html

测试数据集

1、SIGHANBakeoff 2005 MSR, 560KB 

http://sighan.cs.uchicago.edu/bakeoff2005/

2、SIGHANBakeoff 2005 PKU, 510KB 

http://sighan.cs.uchicago.edu/bakeoff2005/

3、人民日报 2014,65MB 

https://pan.baidu.com/s/1hq3KKXe

前两个数据集是SIGHAN于2005年组织的中文分词比赛所用的数据集,也是学术界测试分词工具的标准数据集,本文用于测试各大分词工具的准确性,而最后一个数据集规模较大,用于测试分词速度。

磐创AI:http://www.panchuangai.com/

TensorFlowNews:http://www.tensorflownews.com/


http://www.ppmy.cn/news/581991.html

相关文章

温习古文之过秦论

温习古文之过秦论 秦孝公据崤函之固,拥雍州之地,君臣固守以窥周室,有席卷天下,包举宇内,囊括四海之意,并吞八荒之心。当是时也,商君佐之,内立法度,务耕织,修守…

才女!厦大硕士毕业生文言文致谢走红网络,理科生的文学素养令人惊艳

点击上方“AI遇见机器学习”,选择“星标”公众号 重磅干货,第一时间送达 机器之心发布 厦门大学人工智能方向硕士毕业生李慧霞的一篇文言文式致谢彰显了现当代携科学素养的AI研究者的风范。 论文致谢仅是一篇论文中的一部分内容,向自己导师、…

鸿蒙系统背后的故事,华为“鸿蒙”刷屏背后,这7本书是中国人的终极浪漫

原标题:华为“鸿蒙”刷屏背后,这7本书是中国人的终极浪漫 后台回复书名一键免费阅读:念楼学短| 中国神话通论| 观山海|…… 这是小蜗安利的第304篇书单 在逆境中突围的华为,因为注册“鸿蒙”的商标刷遍了头条。 它被传言是华为自研…

Linux下的su指令和last指令

文章目录 1 切换用户命令(su)2 查看本机的所有登录记录(last)3 退出当前登录账户(exit) 1 切换用户命令(su) su 命令可以切换成不同的用户身份,命令格式如下&#xff1a…

华为鸿蒙系统厉害了,霸榜 GitHub!

点击上方“Github中文社区”,关注 触达Github项目 来自:开源最前线 大家好!我是Huber! OpenHarmony 2.0 于 2021 年 6 月 2 号开源,紧接着鸿蒙系统无疑占据了最近热点话题的C位,就连一个名为HarmonyOS也霸榜Github。 这…

阁下可知文言编程之精妙?文言文亦能编程!此诚年度最骚语言也,数天6K星...

点击上方 "程序员小乐"关注, 星标或置顶一起成长 每天凌晨00点00分, 第一时间与你相约 每日英文 Try to hold the right hand with your left hand, and gave yourself most simple warmth. we should learn to get it by ourselves instead of craving for warmth f…

华为初级——百钱买百鸡

源程序&#xff1a; #include<iostream> using namespace std; int main() {for(int i0;i<20;i){for(int j0;j<34;j){for(int k0;k<300;kk3){if(i*5j*3k/3100&&ijk100)cout<<i<< <<j<< <<k<<endl;}}}return 0; }运…

大四学生发明文言文编程语言,设计思路清奇

整理 | 夕颜 出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 【导读】近日&#xff0c;GitHub 上一个叫做文言文&#xff08;wenyan&#xff09;的编程语言项目火了&#xff0c;就在本文成文期间&#xff0c;GitHub 上的 Star 数已经从 2200 涨到 2800&#xff0c;并…