整理常用的中英文预训练词向量(Pretrained Word Vectors)

news/2025/2/6 8:59:05/

文章目录

    • 引言
    • 腾讯中文词汇/短语向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
      • 使用方法
    • 中文词向量语料库 by 北京师范大学&人民大学
    • Stanford GloVe Embeddings 英文词向量
    • fastText word vectors
      • 使用方法
    • 词向量训练工具包
    • Reference

引言

NLP用向量表示单词,这些向量捕获有关语言的隐藏信息,例如单词类比或语义。它还用于提高文本分类器的性能,可以广泛应用于许多下游文本处理任务。

本文整理一下常用的中、英文预训练词向量的链接,无须自己训练,下载即可使用。


腾讯中文词汇/短语向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

官网:https://ai.tencent.com/ailab/nlp/zh/embedding.html
下载页面:https://ai.tencent.com/ailab/nlp/zh/download.html

2021年12月24日发布版本v0.2.0,提供四个版本下载,词汇规模有200万和1200万两种,词向量维度有100和200维两种,大家可以按需求下载。
在这里插入图片描述

  • 数据规模:1200 万个中文词汇、短语
  • 数据维度:提供100维、200维词向量
  • 数据来源:包含从新闻、网页和小说中收集的大规模文本
  • 数据优势:主要在于覆盖率、新鲜度和准确性。包含大量的领域词汇或俚语,如“喀拉喀什面河”、“皇帝菜”、“不念僧佛面”、“冰火两重天”、“煮酒论”英雄”,大多数现有的嵌入语料库都没有涵盖。还有一些近期出现或流行的新鲜词,如“冠病毒”、“元宇宙”、“了不起的新儿”、“流金岁月”、“凡尔赛文学”、“yyds”等。
  • 训练方式:Directional Skip-Gram1

使用方法

from gensim.models import KeyedVectors
wv_from_text = KeyedVectors.load_word2vec_format(file, binary=False)

中文词向量语料库 by 北京师范大学&人民大学

https://github.com/Embedding/Chinese-Word-Vectors

项目提供超过100种中文词向量,下载后即可用于下游任务。2

此外,项目还提供了中文词类比任务数据集CA8和配套的评测工具,以便对中文词向量进行评估。

  • 数据来源&规模:百度百科(vocab 5422K)、维基百科(vocab 2129K)、人民日报 1947-2017(vocab 1664K)、金融新闻(vocab 2785K)、知乎(vocab 1117K)、微博(vocab 850K)、文学(vocab 702K)、综合(vocab 10653K)、古汉语(vocab 21.8K)等
  • 数据维度:300维词向量
  • 数据优势:包括不同的表示方式(稠密和稀疏)、不同的上下文特征(词、N元组、字等等)、以及不同的训练语料。
  • 训练方式:ngram2vec

Stanford GloVe Embeddings 英文词向量

https://nlp.stanford.edu/projects/glove/

GloVe 是一种用于获取单词向量表示的无监督学习算法。对来自语料库的聚合全局词-词共现统计进行训练,得到的表示展示了词向量空间的线性子结构。3

根据数据来源不同,GloVe 英文词向量分为以下几种:

  • Wikipedia 2014 + Gigaword 5 (6B tokens, 400K vocab, uncased, 50d, 100d, 200d, & 300d vectors, 822 MB download): glove.6B.zip
  • Common Crawl (42B tokens, 1.9M vocab, uncased, 300d vectors, 1.75 GB download): glove.42B.300d.zip
  • Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download): glove.840B.300d.zip
  • Twitter (2B tweets, 27B tokens, 1.2M vocab, uncased, 25d, 50d, 100d, & 200d vectors, 1.42 GB download): glove.twitter.27B.zip

fastText word vectors

英文预训练的词向量:https://fasttext.cc/docs/en/english-vectors.html
157 种语言预训练的词向量:https://fasttext.cc/docs/en/crawl-vectors.html

fastText 是一个用于高效学习单词表示和句子分类的库,并提供了预训练的词向量。4

fastText 词表示的关键特性之一是:它能够为任何单词生成向量,甚至是虚构的单词。事实上,fastText 词向量是由其中包含的字符子串向量构建的。这允许为拼写错误的单词或单词连接构建向量。

英文预训练词向量,根据不同规模和语料库,分为以下四种:

  • wiki-news-300d-1M.vec.zip: 1 million word vectors trained on Wikipedia 2017, UMBC webbase corpus and statmt.org news dataset (16B tokens).
  • wiki-news-300d-1M-subword.vec.zip: 1 million word vectors trained with subword infomation on Wikipedia 2017, UMBC webbase corpus and statmt.org news dataset (16B tokens).
  • crawl-300d-2M.vec.zip: 2 million word vectors trained on Common Crawl (600B tokens).
  • crawl-300d-2M-subword.zip: 2 million word vectors trained with subword information on Common Crawl (600B tokens).

使用方法

import iodef load_vectors(fname):fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')n, d = map(int, fin.readline().split())data = {}for line in fin:tokens = line.rstrip().split(' ')data[tokens[0]] = map(float, tokens[1:])return data

词向量训练工具包

  • ngram2vec:https://github.com/zhezhaoa/ngram2vec/
  • word2vec:https://github.com/svn2github/word2vec
  • fasttext:https://github.com/facebookresearch/fastText

Reference


  1. Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018 (Short Paper). ↩︎

  2. Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018. ↩︎

  3. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation. ↩︎

  4. Mikolov T , Grave E , Bojanowski P , et al. Advances in Pre-Training Distributed Word Representations[J]. 2017. ↩︎


http://www.ppmy.cn/news/202001.html

相关文章

前端HTML空格转义符总结

HTML提供了5种空格实体(space entity),它们拥有不同的宽度。 非断行空格( )是常规空格的宽度,可运行于所有主流浏览器。 其他几种空格(    ‌‍&a…

【机器学习】Java 代码实现 CART 决策树算法

文章目录 一、决策树算法二、CART 决策树三、Java 代码实现3.1 TrainDataSet3.2 DataType3.3 PredictResult3.4 CartDecisionTree3.5 Run 一、决策树算法 关于决策树算法的详细介绍可以参考我的另一篇博客:【机器学习】Decision Tree 决策树算法详解 Python代码实战…

华为手机怎么连接苹果电脑?

华为手机怎么连接苹果电脑? https://zhidao.baidu.com/question/1946793458712978108.html 连接之后,在mac上面进行安装dmg文件,然后就有了一个读取android文件的应用; 然后就可以查看文件内容了;

怎么把苹果手机通讯录导入华为手机_苹果手机资料快速导入华为手机。苹果的ios系统也可以把资料导入安卓!...

手握iPhone想换 HUAWEI Mate 20,但又不知如何迁移数据到新机?苹果手机里的短信如何导入华为?苹果通讯录导入华为?小编今天特意整理一篇操作方法供大家参考使用。 方便快捷——手机克隆 如果你旧手机上的数据类型较少,建…

华为FreeBuds 3耳机配对苹果手机的方法

华为FreeBuds 3耳机怎么连接苹果或安卓手机呢?华为耳机能和苹果、安卓手机配对? 连不上怎么办?答案是可以的,很多人会觉得华为耳机只能连接华为手机,其实并不是,我就是用的苹果手机,买了华为耳机…

手机主板漏电症状

1.手机主板漏电的特征就是用电特别快,而且手机持续发热严重,长时间不处理的话还会导致黑屏、不开机等故障,这都是主板芯片烧了造成的,要对芯片进行维修。 2.另一个症状就是:开应用使用时,cpu发热严重,电池扣位置发热(卡槽位置下面)。另外,充电时严重发热也表明手机主板漏电了。…

iphone主板序列号_苹果承认硬件缺陷,iPhone 8 主板更换计划序列号查询地址

原标题:苹果承认硬件缺陷,iPhone 8 主板更换计划序列号查询地址 苹果公司已经确认了部分 iPhone8 中存在一些生产缺陷,导致这些手机出现功能异常。 这项缺陷来自逻辑板,会导致「一小部分」iPhone8 意外重启、屏幕锁定或者无法打开…

苹果手机备忘录内容如何迁移到华为手机?

“嘀嘀,嘀嘀,嘀嘀”上铺的丹丹手机一直响个不停,弄得我怎么都不能安心构思我的稿子。 “你在干嘛啊丹丹,能不能让你的QQ别一直响了。”毫不掩饰我的不耐烦,爬下床看着丹丹说道。 结果,这家伙看起来既委屈又…