【自然语言处理】TextRank 算法提取关键词(Python实现)

devtools/2025/2/7 12:13:31/

文章目录

  • 前言
  • PageRank 实现
  • TextRank 简单版源码实现
  • jieba工具包实现TextRank


前言

  TextRank 算法是一种基于图的排序算法,主要用于文本处理中的关键词提取和文本摘要。它基于图中节点之间的关系来评估节点的重要性,类似于 Google 的 PageRank 算法。TextRank 算法的关键思想是,一个词语在文本中的重要性可以通过与其他词语的关系来评估,而这些关系可以表示为图中的边。
  图构建(Graph Construction): 将文本中的词语或短语表示为图的节点,词语之间的关系可以是共现关系、语义相似度等。通常,可以使用共现矩阵或者基于词向量的相似度来构建图。
边权重计算(Edge Weighting): 计算图中边的权重,反映节点之间的关系强度。例如,可以使用共现词频、词向量相似度等作为边的权重。
  节点权重计算(Node Weighting): 利用图中节点之间的关系以及边的权重来计算节点的权重。通常采用迭代方法,类似于 PageRank 算法,根据节点之间的相互影响来计算节点的权重。
  排名(Ranking): 根据节点的权重对节点进行排名,排名较高的节点被认为是重要的词语或短语。
  TextRank 算法的节点得分更新公式:

PageRank 实现

初始化时,每个网页的重要性为 1。

我们可以用一个矩阵来表示图中 a、b、e、f 之间的入站和出站链接。

一行中的每个节点表示来自其他节点的入站链接。例如,对于 e 行,节点 a 和 b 具有指向节点 e 的出站链接。本演示文稿将简化更新权重的计算。

根据 1/|out(vi)|​,从函数中,我们应该规范化每一列。

我们使用这个矩阵乘以所有节点的权重。这只是一次没有阻尼系数 d 的迭代。 我们可以使用 Python 进行多次迭代。
import numpy as np
g = [[0, 0, 0, 0],[0, 0, 0, 0],[1, 0.5, 0, 0],[0, 0.5, 0, 0]]g = np.array(g)
pr = np.array([1, 1, 1, 1]) # initialization for a, b, e, f is 1
d = 0.85for iter in range(10):pr = 0.15 + 0.85 * np.dot(g, pr)print(iter)print(pr)
0
[0.15 0.15 1.425 0.575]
1
[0.15 0.15 0.34125 0.21375]
2
[0.15 0.15 0.34125 0.21375]
3
[0.15 0.15 0.34125 0.21375]
4
[0.15 0.15 0.34125 0.21375]
5
[0.15 0.15 0.34125 0.21375]
6
[0.15 0.15 0.34125 0.21375]
7
[0.15 0.15 0.34125 0.21375]
8
[0.15 0.15 0.34125 0.21375]
9
[0.15 0.15 0.34125 0.21375]
10
[0.15 0.15 0.34125 0.21375]

所以 e 的权重(PageRank值)为 0.34125。

如果我们把有向边变成无向边,我们就可以相应地改变矩阵。

规范化。

我们应该相应地更改代码。

import numpy as np
g = [[0, 0, 0.5, 0],[0, 0, 0.5, 1],[1, 0.5, 0, 0],[0, 0.5, 0, 0]]g = np.array(g)
pr = np.array([1, 1, 1, 1]) # initialization for a, b, e, f is 1
d = 0.85for iter in range(10):pr = 0.15 + 0.85 * np.dot(g, pr)print(iter)print(pr)
0
[0.575 1.425 1.425 0.575]
1
[0.755625 1.244375 1.244375 0.755625]
2
[0.67885937 1.32114062 1.32114062 0.67885937]
3
[0.71148477 1.28851523 1.28851523 0.71148477]
4
[0.69761897 1.30238103 1.30238103 0.69761897]
5
[0.70351194 1.29648806 1.29648806 0.70351194]
6
[0.70100743 1.29899257 1.29899257 0.70100743]
7
[0.70207184 1.29792816 1.29792816 0.70207184]
8
[0.70161947 1.29838053 1.29838053 0.70161947]
9
[0.70181173 1.29818827 1.29818827 0.70181173]

所以 e 的权重(PageRank值)为 1.29818827。

TextRank 简单版源码实现

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu(余登武)
# @Date  : 2025/2/06
#@email:1344732766@qq.comimport numpy as np
import jieba
import jieba.posseg as pseg #posseg是Python中的一个分词工具,它可以将文本切割成词语,并且为每个词语标注词性class TextRank(object):def __init__(self, sentence, window, alpha, iternum):self.sentence = sentence #文本self.window = window#窗口大小self.alpha = alpha#权重self.edge_dict = {}  # 记录节点的边连接字典self.iternum = iternum  # 迭代次数# 对句子进行分词def cutSentence(self):#jieba.load_userdict('user_dict.txt')#tag_filter = ['a', 'd', 'n', 'v'] #a形容词,d副词,n名称, v动词tag_filter = ['ns', 'n', 'vn', 'v']#地名、名词、动名词、动词seg_result = pseg.cut(self.sentence)self.word_list = [s.word for s in seg_result if s.flag in tag_filter and len(s.word)>1]#print(self.word_list)#['年度', '中国', '爱心', '城市', '公益活动', '新闻', '发布会'...]# 根据窗口,构建每个节点的相邻节点,返回边的集合def createNodes(self):tmp_list = []word_list_len = len(self.word_list)for index, word in enumerate(self.word_list):if word not in self.edge_dict.keys():tmp_list.append(word)#针对当前word取出左右边界词  word:{左边界词1,左边界词2...右边界词1,右边界词2}tmp_set = set()#当前word的left = index - self.window + 1  # 窗口左边界right = index + self.window  # 窗口右边界if left < 0: left = 0if right >= word_list_len: right = word_list_lenfor i in range(left, right):#左闭右开if i == index:continuetmp_set.add(self.word_list[i])self.edge_dict[word] = tmp_set #{word:{左边界词1,左边界词2...右边界词1,右边界词2}}# 根据边的相连关系,构建矩阵def createMatrix(self):#self.word_list=['年度', '中国', '爱心', '城市', '公益活动', '新闻', '发布会'...]self.matrix = np.zeros([len(set(self.word_list)), len(set(self.word_list))])self.word_index = {}  # 记录词的indexself.index_dict = {}  # 记录节点index对应的词for i, v in enumerate(set(self.word_list)):self.word_index[v] = i#{词:索引}self.index_dict[i] = v #{索引:词}for key in self.edge_dict.keys():#edge_dict {word:{左边界词1,左边界词2...右边界词1,右边界词2}|for w in self.edge_dict[key]:self.matrix[self.word_index[key]][self.word_index[w]] = 1self.matrix[self.word_index[w]][self.word_index[key]] = 1# 归一化for j in range(self.matrix.shape[1]):#列sum = 0for i in range(self.matrix.shape[0]):#行sum += self.matrix[i][j]#一列的和for i in range(self.matrix.shape[0]):self.matrix[i][j] /= sum# 根据textrank公式计算权重def calPR(self):self.PR = np.ones([len(set(self.word_list)), 1])#每个词语重要性初始化为1for i in range(self.iternum):self.PR = (1 - self.alpha) + self.alpha * np.dot(self.matrix, self.PR)#重要性迭代更新# 输出词和相应的权重def printResult(self):word_pr = {}for i in range(len(self.PR)):#self.index_dict[i] 得到位置索引i对应的词word_pr[self.index_dict[i]] = self.PR[i][0] #{词:重要性}res = sorted(word_pr.items(), key=lambda x: x[1], reverse=True)[:5]#前5个单词print(res)if __name__ == '__main__':text = '6月19日,《2012年度“中国爱心城市”公益活动新闻发布会》在京举行。' + \'中华社会救助基金会理事长许嘉璐到会讲话。基金会高级顾问朱发忠,全国老龄' + \'办副主任朱勇,民政部社会救助司助理巡视员周萍,中华社会救助基金会副理事长耿志远,' + \'重庆市民政局巡视员谭明政。晋江市人大常委会主任陈健倩,以及10余个省、市、自治区民政局' + \'领导及四十多家媒体参加了发布会。中华社会救助基金会秘书长时正新介绍本年度“中国爱心城' + \'市”公益活动将以“爱心城市宣传、孤老关爱救助项目及第二届中国爱心城市大会”为主要内容,重庆市' + \'、呼和浩特市、长沙市、太原市、蚌埠市、南昌市、汕头市、沧州市、晋江市及遵化市将会积极参加' + \'这一公益活动。中国雅虎副总编张银生和凤凰网城市频道总监赵耀分别以各自媒体优势介绍了活动' + \'的宣传方案。会上,中华社会救助基金会与“第二届中国爱心城市大会”承办方晋江市签约,许嘉璐理' + \'事长接受晋江市参与“百万孤老关爱行动”向国家重点扶贫地区捐赠的价值400万元的款物。晋江市人大' + \'常委会主任陈健倩介绍了大会的筹备情况。'tr = TextRank(text, 3, 0.85, 600)tr.cutSentence()tr.createNodes()tr.createMatrix()tr.calPR()tr.printResult()

jieba工具包实现TextRank

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu(余登武)
# @Date  : 2025/2/06
#@email:1344732766@qq.comimport jieba
import jieba.posseg as psg
from jieba import analysedef textrank_extract(text, pos=False, keyword_num=5):textrank = analyse.textrankkeywords = textrank(text, allowPOS=('ns', 'n', 'vn', 'v'),topK=keyword_num,withWeight=False,)# 输出抽取出的关键词for keyword in keywords:print(keyword + "/ ", end='')print()
if __name__ == '__main__':text = '6月19日,《2012年度“中国爱心城市”公益活动新闻发布会》在京举行。' + \'中华社会救助基金会理事长许嘉璐到会讲话。基金会高级顾问朱发忠,全国老龄' + \'办副主任朱勇,民政部社会救助司助理巡视员周萍,中华社会救助基金会副理事长耿志远,' + \'重庆市民政局巡视员谭明政。晋江市人大常委会主任陈健倩,以及10余个省、市、自治区民政局' + \'领导及四十多家媒体参加了发布会。中华社会救助基金会秘书长时正新介绍本年度“中国爱心城' + \'市”公益活动将以“爱心城市宣传、孤老关爱救助项目及第二届中国爱心城市大会”为主要内容,重庆市' + \'、呼和浩特市、长沙市、太原市、蚌埠市、南昌市、汕头市、沧州市、晋江市及遵化市将会积极参加' + \'这一公益活动。中国雅虎副总编张银生和凤凰网城市频道总监赵耀分别以各自媒体优势介绍了活动' + \'的宣传方案。会上,中华社会救助基金会与“第二届中国爱心城市大会”承办方晋江市签约,许嘉璐理' + \'事长接受晋江市参与“百万孤老关爱行动”向国家重点扶贫地区捐赠的价值400万元的款物。晋江市人大' + \'常委会主任陈健倩介绍了大会的筹备情况。'print('TextRank模型结果:')textrank_extract(text)

在这里插入图片描述


http://www.ppmy.cn/devtools/156798.html

相关文章

Java 大视界 -- Java 大数据在智能安防中的应用与创新(73)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

PFAS(全氟烷基和多氟烷基物质)测试流程详细介绍

PFAS&#xff08;全氟烷基和多氟烷基物质&#xff09;测试详细介绍 什么是PFAS&#xff1f; PFAS是(Per-and polyfluoroalkyl substances)的简称&#xff0c;中文名&#xff1a;全氟烷基和多氟烷基物质&#xff0c;是一系列合成有机氟化物的总称&#xff0c;是指至少含有一个…

【LeetCode 刷题】贪心算法(1)-基础

此博客为《代码随想录》二叉树章节的学习笔记&#xff0c;主要内容为贪心算法基础的相关题目解析。 文章目录 455.分发饼干1005.K次取反后最大化的数组和860.柠檬水找零 455.分发饼干 题目链接 class Solution:def findContentChildren(self, g: List[int], s: List[int]) -…

央行发布《贸易金融分布式账本技术要求》,参考架构包括5部分

《银行科技研究社》(作者 木子剑):2024年12月11日,中国人民银行发布金融行业标准《贸易金融分布式账本技术要求》(JR/T 0308-2024)(以下简称“《要求》”),当日实施。据悉,该文件的起草单位包括6大行和多家股份制银行等。 《要求》规定了分布式账本技术在贸易金融领域…

Hive自定义函数简介及实践案例

摘要: Hive自定义函数简介及实践 关键词: 大数据、Hive、自定义函数 整体说明 从自定义函数的简介,到自定义函数的使用类型分类和使用周期分类,以及每种自定义函数的实践案例,解决具体的需求,简单图示如下: 一、简介 允许用户扩展 Hive 的功能,以实现特定的数据处…

java 网络安全感知 网络安全学java

实验内容 1&#xff0e;掌握Socket程序的编写&#xff1b;2&#xff0e;掌握密码技术的使用&#xff1b;3&#xff0e;设计安全传输系统。 实验步骤 我的结对伙伴是宋歌,我负责的是客户端的部分。1、首先通过在对方的命令行中输入ipconfig得到服务器的ip地址。2、建立一个Soc…

力扣-字符串-344 反转字符串

思路 原地逆置&#xff0c;想到利用left和right 代码 class Solution { public:void reverseString(vector<char>& s) {int left 0, right s.size() - 1;while(left < right){char temp;temp s[left];s[left] s[right];s[right] temp; left;right--;}} };…

用pytorch实现一个简单的图片预测类别

前言&#xff1a; 在阅读本文之前&#xff0c;你需要了解Python&#xff0c;Pytorch&#xff0c;神经网络的一些基础知识&#xff0c;比如什么是数据集&#xff0c;什么是张量&#xff0c;什么是神经网络&#xff0c;如何简单使用tensorboard,DataLoader。 本次模型训练使用的是…