腾讯AI Lab开源800万中文词的NLP数据集 | 资源

news/2024/12/5 5:15:37/
允中 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

鹅厂开源,+1 again~

又一来自腾讯AI实验室的资源帖。

腾讯AI实验室宣布,正式开源一个大规模、高质量的中文词向量数据集。

该数据包含800多万中文词汇,相比现有的公开数据集,在覆盖率、新鲜度及准确性上大幅提高。

在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面,腾讯内部效果提升显著。

640?wx_fmt=jpeg

数据集特点

总体来讲,腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。

具体方面,腾讯自称,该数据集着重在3方面进行了提升:

覆盖率(Coverage):

该词向量数据集包含很多现有公开的词向量数据集所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

新鲜度(Freshness):

数据集包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。

以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

准确性(Accuracy):

由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:

640?wx_fmt=png

在开源前,腾讯内部经历了多次测评,认为该数据集相比于现有的公开数据集,在相似度和相关度指标上均达到了更高的分值。

数据集构建经验

那么这样的数据集,腾讯AI实验室是如何构建的呢?

他们围绕3方面分享了构建及优化经验:

语料采集:

训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。

大规模多来源语料的组合,使得所生成的词向量数据集能够涵盖多种类型的词汇。

而采用新闻数据和最新网页数据对新词建模,也使得词向量数据集的新鲜度大为提升。

词库构建:

除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法,可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。

训练算法:

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。

DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。

640?wx_fmt=png

意义

最后,表扬一下鹅厂的开源之举。

目前针对英语环境,工业界和学术界已发布了一些高质量的词向量数据集,并得到了广泛的使用和验证。

其中较为知名的有谷歌公司基于word2vec算法、斯坦福大学基于GloVe算法、Facebook基于fastText项目发布的数据集等。

然而,目前公开可下载的中文词向量数据集还比较少,并且数据集的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。

所以有资源有能力的腾讯,还有心做这样的事情,对业界实属利好。

希望腾讯AI实验室的开源之举,多多益善吧~

传送门

数据下载地址:https://ai.tencent.com/ailab/nlp/embedding.html

作者系网易新闻·网易号“各有态度”签约作者


加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态




http://www.ppmy.cn/news/376818.html

相关文章

工程师离职倒卖公司源码,获利 800 万被抓

(给技术最前线加星标,每天看技术热点) 转自:北京市公安局 最近,北京市公安局海淀分局破获一起离职员工通过非法提高个人权限,盗取原公司关键信息数据,倒卖获利近八百万元的非法获取计算机信息系…

好家伙!Java程序员开发了一套系统,卖了800万,成都买了6套房!属实是走上人生巅峰了!

大家好,我是然然。今天内心比较澎湃; 刚刚 群里,段大佬发布技术搞钱交流会,如下图: 某大佬开发一套系统,卖了800万,成都买了6套房,把普通人两辈子的钱都一次性赚好了。 作为有几年…

最高800万,三大机构启动新型冠状病毒研究专项申请!涵盖人工智能辅助诊断!

1月27日,国自然启动新型冠状病毒研究专项项目,直接资助单个项目150万元。1月28日,深圳湾实验室、深圳市科创委陆续启动紧急专项,单个项目资助金额可达200万~800万元!俗话说德不配位,必有灾殃&am…

2011年至2018年全国城市区县历史天气数据集,包含预报高温、低温、风速、风向、天气现象数据,mysql数据集,数据量800万以上数据大小1G

2011年至2018年全国城市区县历史天气数据集,包含预报高温、低温、风速、风向、天气现象数据,mysql数据集,数据量800万以上数据大小1G 数据集格式,数据集来源于网络公开数据,本人整理所得 8249458 2018-11-25 8…

800万行代码的鸿蒙系统,在世界上处于什么水平?

“800万行的代码量,让鸿蒙一跃成为人类有史以来第4大代码量的移动操作系统。要知道当前2.0版本仅包含大屏、手表和车机系统,等到今年12 月手机系统发布后,鸿蒙系统的代码量估计可超过1000万行。而这么庞大的工作量,华为仅用2年便完…

鸿蒙底层系统linux,鸿蒙系统800万行代码,真正属于华为的有几行?

在前几日的华为开发者大会上,华为鸿蒙2.0系统正式发布!并且向全世界的开发者开放源代码。近日,有网友表示鸿蒙系统800万行代码,而真正属于华为的只有15万行,华为吹牛了?其实不是这样的! 该网友解释到为什么暂时不能运行在内存超过128M的设备上的原因:鸿蒙系统里面引用了…

❤️Java程序员开发了一套系统,卖了800万,成都买了6套房

大家好,我是锋哥。今天就不爆照了,主要是内心比较澎湃; 刚刚 群里,段大佬发布技术搞钱交流会,如下图: 某大佬开发一套系统,卖了800万,成都买了6套房,把普通人两辈子的…

Spring:InvalidDefinitionException: Direct self-reference leading to cycle

一、现象 一个列表接口报错,没有返回信息,异常堆栈如下: 11:52:05.096 [http-nio-8180-exec-36] ERROR c.u.s.f.w.e.GlobalExceptionHandler - [handleRuntimeException,65] - 请求地址XXXXX,发生未知异常. org.springframework.http.conve…