预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

news/2025/2/6 0:05:42/

中文预训练词向量——基于中文维基百科语料训练

英文预训练词向量——斯坦福glove预训练的词向量

百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53Xw

提取码: afhh 

         维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。

 

中文预训练词向量

2018  Analogical Reasoning on Chinese Morphological and Semantic Relations      (该文章被2018 ACL收录)

        该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训练向量,并将它们用于下游任务。

下载地址:https://github.com/Embedding/Chinese-Word-Vectors

参考文献引用:

Li S, Zhao Z, Hu R, et al. Analogical Reasoning on Chinese Morphological and Semantic Relations[J]. meeting of the association for computational linguistics, 2018: 138-143.

 

英文词向量预训练 

官方网站:https://nlp.stanford.edu/projects/glove/

预先训练的单词向量。此数据在Public Domain Dedication and License v1.0下提供,其全文可在以下网址找到:http://www.opendatacommons.org/licenses/pddl/1.0/。

  • 维基百科2014 + Gigaword 5(6B令牌,400K词汇,无章,50d,100d,200d和300d载体,822 MB下载):glove.6B.zip
  • 常见爬网(42B令牌,1.9M词汇,无框,300d向量,1.75 GB下载):glove.42B.300d.zip
  • Common Crawl(840B令牌,2.2M词汇,套装,300d载体,2.03 GB下载):glove.840B.300d.zip
  • Twitter(2B推文,27B令牌,1.2M词汇,无框,25d,50d,100d和200d向量,1.42 GB下载):glove.twitter.27B.zip

 

 

至此结束。

 


http://www.ppmy.cn/news/202019.html

相关文章

Go语言:原来不同平台的emoji表情是这样实现的

关键词:emoji、unicode、utf8、go、golang、颜文字、表情 什么是emoji emoji就是一些意形符号。 emoji的实现 首先,你必须能够区分unicode、utf8和字符之间的区别,如果不明白请查看《一次彻底搞清unicode、utf8和utf8mb4》: …

最新GLove词向量预训练文件国内服务器下载

试过去斯坦福官方网址(https://nlp.stanford.edu/projects/glove/)下Glove的同学就知道有多痛苦… 真的要多慢有多慢 使用国内服务器几分钟下完 glove.840B.300d.zip(2G)真香!!! 国内服务器地址: 直接…

【隧道篇 / SSL】(6.0) ❀ 02. 通过 SSL 访问 IPsec (中) ❀ FortiGate 防火墙

【简介】经常有人问可不可以通过SSL VPN到达某个防火墙,再通过防火墙与防火墙之间的IPsec VPN访问另一台防火墙后的电脑。这是可以做到的!为了做到这个功能,我们先要一步一步学习怎样配置SSL VPN。 配置环境 我们在广州有一台FortiGate 200D防…

情人节数码好物推荐,值得入手的四款数码好物分享

2023年首个情人节情人节马上要到了,在这个既传统又浪漫的节日里,各位有没有想好送什么样的礼物给自己的爱人呢?我想肯定很多人都在纠结这个事情,又怕买到不喜欢的好物,接下来小篇给大家推荐几款情人节必入数码好物礼物…

PyTorch在NLP任务中使用预训练词向量

在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能。下面分别介绍使用gensim和torchtext两种加载预训练词向量的方法。 1.使用gensim加…

【隧道篇 / IPsec】(5.6) ❀ 05. 向导快速建立点对多IPsec ❀ FortiGate 防火墙

【简介】前面我们已经会用向导建立点对点的IPSec了,点对多的IPsec又是怎么回事呢? 点对多 VPN 如果一家企业有多家分公司,总部需要和分公司建立IPsec VPN连接,理论上来说有多少家分公司,总部就要建立多少条点对点的连接…

零宽字符隐写——2021网刃杯CTF 签到

0x01 零宽字符 零宽度字符是一些不可见的,不可打印的字符。它们存在于页面中主要用于调整字符的显示格式,下面就是一些常见的零宽度字符及它们的unicode码和原本用途: 零宽度空格符 (zero-width space) U200B : 用于较长单词的换行分隔零宽…

HTML提供了5种空格表示

HTML提供了5种空格实体(space entity),它们拥有不同的宽度,非断行空格( )是常规空格的宽度,可运行于所有主流浏览器。其他几种空格(       ‌…