第N7周:调用Gensim库训练Word2Vec模型

ops/2024/12/21 17:22:02/

文章目录

  • 一、准备工作
    • 1.安装Gensim库
    • 2.对原始语料分词
  • 二、训练Word2Vec模型
  • 三、模型应用
    • 1.计算词汇相似度
    • 2.找出不匹配的词汇
    • 3.计算词汇的词频
  • 四、总结

  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊

一、准备工作

1.安装Gensim库

2.对原始语料分词

import jieba
import jieba.analysejieba.suggest_freq('沙瑞金', True) # 加入一些词,使得jieba分词准确率更高
jieba.suggest_freq('田国富', True)
jieba.suggest_freq('高育良', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('蔡成功', True)
jieba.suggest_freq('孙连城', True)
jieba.suggest_freq('季昌明', True)
jieba.suggest_freq('丁义珍', True)
jieba.suggest_freq('郑西坡', True)
jieba.suggest_freq('赵东来', True)
jieba.suggest_freq('高小琴', True)
jieba.suggest_freq('赵瑞龙', True)
jieba.suggest_freq('林华华', True)
jieba.suggest_freq('陆亦可', True)
jieba.suggest_freq('刘新建', True)
jieba.suggest_freq('刘庆祝', True)
jieba.suggest_freq('赵德汉', True)with open('in_the_name_of_people.txt')as f:result_cut = []lines = f.readlines()for line in lines:result_cut.append(list(jieba.cut(line)))f.close()
# 添加自定义停用词语
stopwords_list = [",", "。", "\n", "\u3000", " ", ":", "!", "?","..."]def remove_stopwords(ls):    ## 去除停用词return [word for word in ls if word not in stopwords_list]result_stop=[remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
print(result_stop[100:103])
[['侯亮平', '也', '很', '幽默', '一把', '抓住', '了', '赵德汉', '的', '手', '哎', '赵', '处长', '我', '既', '来', '了', '还', '真', '舍不得', '和', '你', '马上', '就', '分手', '哩', '咱们', '去', '下', '一个点', '吧', '说', '罢', '从', '赵家', '桌上', '杂物', '筐', '里', '准确', '地', '拿出', '一张', '白色', '门卡', '插到', '了', '赵德汉', '的', '上衣', '口袋', '里'], ['赵德汉', '慌', '了', '忙', '把门', '卡往', '外', '掏', '这', '…', '…', '这', '什么', '呀', '这', '是'], ['你', '帝京', '苑', '豪宅', '的', '门', '卡', '啊', '请', '继续', '配合', '我们', '执行公务', '吧']]

二、训练Word2Vec模型

from gensim.models import Word2Vecmodel = Word2Vec(result_stop,        # 用于训练的语料数据vector_size=100,    # 是指特征向量的维度,默认为100window=5,           # 一个句子中单词和被预测单词的最大距离min_count=1)        # 可以对字典做截断,词频少于min_count次数的单词会被丢弃,默认为5

三、模型应用

1.计算词汇相似度

我们可以使用similarity()计算两个词汇之间的余弦相似度

# 计算两个词的相似度
print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))
0.99933577
0.99944884
# 选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'], topn=5):print(e[0], e[1])
老 0.9998308420181274
对 0.9998250603675842
赵立春 0.9998083710670471
陈岩石 0.9997869729995728
才 0.9997787475585938

2.找出不匹配的词汇

使用doesnt_match()方法,我们可以找到一组词汇中与其他词汇不匹配的词汇

odd_word = model.wv.doesnt_match(["苹果","香蕉","橙子","书"])
print(f"在这组词汇中不匹配的词汇:{odd_word}")
在这组词汇中不匹配的词汇:书

3.计算词汇的词频

我们可以使用get_vecattr()方法获取词汇的词频

word_frequency = model.wv.get_vecattr("沙瑞金", "count")
print(f"沙瑞金:{word_frequency}")
沙瑞金:353

四、总结

本周主要学习了调用Gensim库训练Word2Vec模型,学习使用了similarity()方法计算两个词之间的余弦相似度,学习了doesnt_match()方法去找到一组词汇中与其他词不匹配的词,学习了通过get_vecattr()方法得到词汇的频率。


http://www.ppmy.cn/ops/143813.html

相关文章

Java 中的 Button 详解

在 Java 图形用户界面(GUI)编程中,Button(按钮)是一个常用的组件,它允许用户通过点击来触发特定的操作。本文将深入探讨 Java 中的Button,包括其创建、使用方法、事件处理以及在不同场景下的应用…

基于Spring Boot的高校素拓分管理系统

一、系统背景与目的 随着高校教育的不断发展,素质拓展活动在大学生培养中扮演着越来越重要的角色。为了更好地管理和记录学生的素质拓展学分,提高管理效率,降低管理成本,开发一套基于Spring Boot的高校素拓分管理系统显得尤为重要…

TCP套接字通信与守护进程

目录 TCP socket API 详解 代码实现TCP通讯 服务端 客户端 Task 守护进程 守护进程 前台与后台 Linux进程间关系 ​编辑 设置为独立会话setsid daemon接口 为什么需要设置umask 会话ID与组ID TCP的相关机制 下图是基于TCP协议的客户端/服务器程序的一般流程: 数…

web网页端使用webSocket实现语音通话功能(SpringBoot+VUE)

写在前面 最近在写一个web项目,需要实现web客户端之间的语音通话,期望能够借助webSocket全双工通信的方式来实现,但是网上没有发现可以正确使用的代码。网上能找到的一个代码使用之后只能听到“嘀嘀嘀”的杂音 解决方案:使用Jso…

记一次mysql故障排除和硬盘扩容

问题发现 某天早上发现我的博客突然不能访问了。简单看了一下可能是数据库连接出了问题。这台服务器比较节约,网站和数据库都放在一个机器上。讲道理不该出现数据库连接问题的。 解决思路 首先需要熟悉mysql各个文件保存位置 项目位置日志保存位置/var/log/mysq…

【自用】通信内网部署rzgxxt项目_02,前端pipeCloud部署(使用 nginx 部署 + NSSM 控制非窗口运行)

做完这些工作之后,不要忘记打开 Windows Server 的防火墙端口,8181、8081、8080、22、443、1521 做完这些工作之后,不要忘记打开 Windows Server 的防火墙端口,8181、8081、8080、22、443、1521 做完这些工作之后,不要…

TCP Analysis Flags 之 TCP Fast Retransmission

前言 默认情况下,Wireshark 的 TCP 解析器会跟踪每个 TCP 会话的状态,并在检测到问题或潜在问题时提供额外的信息。在第一次打开捕获文件时,会对每个 TCP 数据包进行一次分析,数据包按照它们在数据包列表中出现的顺序进行处理。可…

Android基于Path的addRoundRect,Canvas剪切clipPath简洁的圆角矩形实现,Kotlin(1)

Android基于Path的addRoundRect&#xff0c;Canvas剪切clipPath简洁的圆角矩形实现&#xff0c;Kotlin&#xff08;1&#xff09; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res…