基于Spark计算网络图中节点之间的Jaccard相似性

devtools/2024/9/25 17:11:33/

基于Spark计算网络图中节点之间的Jaccard相似性

Jaccard 相似度是一种较为常用的衡量两个集合相似性的指标,用于计算两个集合的交集与并集的比率。具体来说,它的计算公式为:
在这里插入图片描述
网络图中同样经常使用Jaccard来计算节点之间的相似性,对于图中的每个节点,收集其邻居节点作为一个集合,然后不同节点之间使用对应的集合计算节点之间的相似性。这种计算方式考虑的是节点的局部结构,即节点的直接邻居关系。如果两个节点具有较高的 Jaccard 相似度,意味着它们有较多的共同邻居,表明它们在图中的局部结构上非常相似。
Jaccard计算简单,易于理解和实现,在推荐系统(在社交网络或电商平台中,可以使用 Jaccard 相似度来推荐好友或商品。例如,在社交网络中,具有共同好友的用户可能更容易成为朋友。)或是社区发现(在网络图中,相似度较高的节点可能属于同一社区或群体。通过计算节点对之间的 Jaccard 相似度,可以辅助发现社区结构或群体。)等领域都有广泛应用。

文章目录

  • 基于Spark计算网络图中节点之间的Jaccard相似性
  • 一、使用Jaccard相似性计算网络图中节点相似性的实现流程
  • 二、什么是MinHashLSH
  • 三、完整代码(基于Scala)
  • 总结


一、使用Jaccard相似性计算网络图中节点相似性的实现流程

  • 收集所有指向节点的邻居节点(in-degree)
  • 收集所有由节点指出的邻居节点(out-degree)
  • 拼接in-degree和out-degree,获取节点所有的邻居节点
  • 词袋模型编码,为每个节点生成一个特征集合,方便后续使用Spark自带的MinHashLSH方法加速节点相似度的计算
  • MinHash计算节点之间的相似度,得到最终计算结果

二、什么是MinHashLSH

什么是MinHashLSH

三、完整代码(基于Scala)

完整代码(基于Scala)


总结

在这里插入图片描述


http://www.ppmy.cn/devtools/98677.html

相关文章

梧桐数据库(WuTongDB):数据库技术中LR算法详解

LR(Left-to-Right, Rightmost Derivation)算法是一种自底向上的语法分析方法,用于解析上下文无关文法。与 LL 分析器的自顶向下分析方式不同,LR 分析器从输入的最左侧开始读取符号,但通过“最右推导”来构建语法树。这…

vue.js的设计与实现(权衡的的艺术-命令式和声明式)

权衡的的艺术 什么是命令式和声明式呢?性能与可维护性的权衡那么,问题又来了,为什么vue.js不选择性能更好的命令式,而选择声明式呢? 虚拟DOM的性能到底如何总结 什么是命令式和声明式呢? 我们来看一下jQue…

MyBatis核心机制

实现MyBatis核心机制环境搭建 1.核心框架示意图 2.模块搭建 1.创建maven项目 2.引入依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSc…

C++ 内嵌 python 解释器

AI 提供 #include <Python.h> #include <map> #include <string>int main() {// 初始化 Python 解释器Py_Initialize();// 创建一个 C std::mapstd::map<std::string, int> myMap {{"apple", 3},{"banana", 5},{"orange&quo…

Linux系统性能调优指南-定期维护

目录 定期维护 日志管理 示例 磁盘维护 示例 示例代码 日志管理示例 磁盘维护示例 定期维护 定期维护对于保持Linux系统的稳定性和性能至关重要。这包括日志管理以及磁盘维护等方面。下面详细介绍这些方面的配置和优化方法。 日志管理 日志文件随着时间的积累可能会占用大量的磁…

Lumos学习王佩丰Excel第十二讲:Match与Index

一、函数语法 1、vlookup的局限 举个栗子&#xff0c;VLOOKUP不能做到从右推左&#xff1a; 由此看来&#xff0c;使用vlookup函数&#xff0c;表格范围要遵循从左到右的顺序&#xff0c;左为自变量&#xff0c;右为因变量&#xff1b;而要解决这种场景的弊端&#xff0c;可以…

【Qwen2微调实战】LLaMA-Factory框架对Qwen2-7B模型的微调实践

系列篇章&#x1f4a5; No.文章1【Qwen部署实战】探索Qwen-7B-Chat&#xff1a;阿里云大型语言模型的对话实践2【Qwen2部署实战】Qwen2初体验&#xff1a;用Transformers打造智能聊天机器人3【Qwen2部署实战】探索Qwen2-7B&#xff1a;通过FastApi框架实现API的部署与调用4【Q…

【数据分析】数据的离中趋势之一 - 极差、分位距、平均差

一、极差 未分组或单项分组的数据&#xff1a;极差最大值 - 最小值已分组数据&#xff1a;极差最大组的上限 - 最下组的下限实际应用中&#xff0c;极差可用于检查产品质量的稳定性和进行质量控制。正常生产条件下&#xff0c;极差在一定范围内波动&#xff0c;如出现不正常情…