社区发现算法——GN算法与FN算法

news/2025/1/16 7:45:28/

GN算法

本算法的具体内容请参考Finding and evaluating community structure in networks(Newman and Girvan)。

重要概念

边介数(betweenness):网络中任意两个节点通过此边的最短路径的数目。

GN算法的思想:

在一个网络之中,通过社区内部的边的最短路径相对较少,而通过社区之间的边的最短路径的数目则相对较多。GN算法是一个基于删除边的算法,本质是基于聚类中的分裂思想,在原理上是使用边介数作为相似度的度量方法。在GN算法中,每次都会选择边介数高的边删除,进而网络分裂速度远快于随机删除边时的网络分裂。

GN算法的步骤如下:
(1)计算每一条边的边介数;
(2)删除边界数最大的边;
(3)重新计算网络中剩下的边的边阶数;
(4)重复(3)和(4)步骤,直到网络中的任一顶点作为一个社区为止。
在这里插入图片描述
GN算法计算边界数的时间复杂度为 O(m*n),总时间复杂度在m条边和n个节点的网络下为 O(m^2 *n)。
GN算法的缺陷:
(1)不知道最后会有多少个社区;
(2)在计算边介数的时候可能会有很对重复计算最短路径的情况,时间复杂度太高;
(3)GN算法不能判断算法终止位置。
为了解决这些问题,Newman引入了模块度Q的概念,它用来一个评价社区结构划分的质量。网络中的社区结构之间的边数并不是绝对数量上的少,而是应该比期望的边数要少。

模块度

模块度介绍

设Avw为网络的邻接矩阵的一个元素,定义为:

img

假设cv和cw分别表示点v和点w所在的两个社区,社区内部的边数和网络中总边数的比例

img

函数δ(cv,cw)的取值定义为:如果v和w在一个社区,即cv=cw,则为 1,否则为 0。m 为网络中边的总数。

模块度的大小定义为社区内部的总边数和网络中总边数的比例减去一个期望值,该期望值是将网络设定为随机网络时同样的社区分配所形成的社区内部的总边数和网络中总边数的比例的大小,于是模块度Q为:

img

其中kv表示点v的度。

img

设eij表示社区I和社区J之间的连接边和与总边数的比例,ai表示社区i内部的点所关联的所有的边的数目与总边数的比例。

img img

为了简化Q的计算,假设网络已经划分成n个社区,这个时候就有一个 n维矩阵,Q 的计算可以变成:

eii表示的是节点全在社区i内部中的边所占的比例

img

模块度的物理意义是,网络中连接两个同种类型结点的边(即社区内部的边)的比例减去在同样的社区结构”下任意连接节点的边的比例的期望值。如果社区内部边的比例不大于任意连接时的期望值,则有Q=0。Q的上限为1,而Q越接近于这个值,就说明社区结构越明显。实际网络中,该值通常位于0.3-0.7之间。

引入模块度后代码如下:

  1. 计算当前网络的边介数和模块度Q值,并存储模块度Q值和当前网络中社团分割情况
  2. 除去边介数最高的边;
  3. 计算当前网络的模块度Q值,如果此Q值比原来的大,则将现在的Q值和网络中社团分割情况存储更新,否则,进行下一次网络分割;
  4. 所有边分割完毕,返回当前的模块度Q值和community分割情况。

数据集为Karate数据集:
Zachary空手道俱乐部成员关系网络是复杂网络、社会学分析等领域中最常用的一个小型检测网络之一。从1970到1972年,Zachary观察了美国一所大学空手道俱乐部成员间的社会关系,并构造出了34个成员,78条成员关系的社会关系网。两个成员经常一起出现在俱乐部活动之外的其他场合,就认为两个成员间有边。该俱乐部因为主管(节点34)与教练(节点1)之间的争执而分裂成2个各自为核心的小俱乐部。

python代码如下:

class GN:def __init__(self, G):self._G = Gself._G_cloned = cloned_graph(G)# 初始划分情况为所有节点为一个社区self._partition = [[n for n in G.nodes()]]self._max_Q = 0.0def execute(self):while len(self._G.edges()) != 0:# 1.计算每一条边的边介数# nx.edge_betweenness返回边介数字典,items返回可遍历的(键, 值) 元组数组。这里每个item是((vi,vj), edge_betweenness))# 因此我们取的item[1]最大的item,再取该最小item的[0],为我们要删除的两个点(即要删除的边)edge = max(nx.edge_betweenness_centrality(self._G).items(),key=lambda item: item[1])[0]# 2. 移去边介数最大的边self._G.remove_edge(edge[0], edge[1])# 获得移去边后的子连通图components = [list(c)for c in list(nx.connected_components(self._G))]if len(components) != len(self._partition):# 3. 计算Q值cur_Q = cal_Q(components, self._G_cloned)if cur_Q > self._max_Q:self._max_Q = cur_Qself._partition = componentsprint(self._max_Q)print(self._partition)return self._partition

结果如下:
在这里插入图片描述
Q值:0.40129848783694944
算法执行时间0.08202219009399414

Newman快速算法 (FN算法)

本算法的具体内容请参考 Fast algorithm for detecting community structure in networks(Newman)。

GN算法通过模块度可以准确的划分网络,但它只适用于中小型规模的网络(时间复杂度高)。Newman提出一种基于贪心的快速社区发现算法,算法的基本思想是:首先将网络中的每个顶点设为一个单独社区,每次迭代选择产生最大Q值两个社团合并,直至整个网络融合成一个社团。整个过程是自底向上的过程,且这个过程最终得到一个树图,即树的叶子节点表示网络中的顶点,树的每一层切分对应着网络的某个具体划分,从树图的所有层次划分中选择模块度值最大的划分作为网络的有效划分。该算法的总体时间复杂度为O(m(m+n))

设网络有n个节点,m条边,每一步合并对应的社区数目为r,组成一个r*r矩阵e,矩阵元素eij表示社区i中的节点与社区j中节点之间连边的数目在网络总变数的百分比。

主要步骤:

(1) 初始化网络,开始网络有n 个社区,初始化的eij和ai为:img

(2)依次按照∆Q的最大或者最小的方向进行合并有边相连的社区对,并计算合并后的模块度增量∆Q:

img

(3)合并社区对以后修改对社区对称矩阵e 和社区i和j对应的行列;

(4)重复执行步骤(2)和(3),不断合并社区,直至整个网络合并成一个社区为止。

img
python代码如下:

class FastNewman:def __init__(self, path):self.G = load_graph(path)# G = nx.read_gml('dolphins.gml')self.A = nx.to_numpy_array(self.G)  # 邻接矩阵self.num_node = len(self.A)  # 点数self.num_edge = sum(sum(self.A))  # 边数self.c = {}  # 记录所有Q值对应的社团分布# def merge_community(self, iter_num, detaQ, e, b):#     # 一起合并容易出bug  查询的结果I在遍历过程中 可能在已经前面某次作为J被合并了#     # 比如某次是[ 3, 11] [11, 54] 第一轮迭代中11被合并 第二轮54合并到旧的11中  会导致后面被删除 导致节点消失  需要将54合并到现在11所在位置  比较麻烦 不如一个个合并#     b_num = sum([len(i) for i in b])#     det_max = np.amax(detaQ)##     (I, J) = np.where(detaQ == det_max)#     print((I, J) )#     # 由于先遍历的I I中可能有多个相同值  所以合并时候因应该将J合并到I中#     # 如果将I合并到J中 后续删除删不到#     for m in range(len(I)):#         # 确保J还未被合并#         if J.tolist().index(J[m]) == m:#             # 将第J合并到I 然后将J清零#             e[I[m], :] = e[J[m], :] + e[I[m], :]#             e[J[m], :] = 0#             e[:, I[m]] = e[:, J[m]] + e[:, I[m]]#             e[:, J[m]] = 0#             b[I[m]] = b[I[m]] + b[J[m]]##     e = np.delete(e, J, axis=0)#     e = np.delete(e, J, axis=1)#     J = sorted(list(set(J)), reverse=True)#     for j in J:#         b.remove(b[j])  # 删除第J组社团,(都合并到I组中了)#     b_num2 = sum([len(i) for i in b])#     if b_num2 != b_num:#         print("111")#     self.c[iter_num] = b.copy()#     return e, bdef merge_community(self, iter_num, detaQ, e, b):# 一个个合并(I, J) = np.where(detaQ == np.amax(detaQ))# 由于先遍历的I I中可能有多个相同值  所以合并时候因应该将J合并到I中# 如果将I合并到J中 后续删除删不到e[I[0], :] = e[J[0], :] + e[I[0], :]e[J[0], :] = 0e[:, I[0]] = e[:, J[0]] + e[:, I[0]]e[:, J[0]] = 0b[I[0]] = b[I[0]] + b[J[0]]e = np.delete(e, J[0], axis=0)e = np.delete(e, J[0], axis=1)b.remove(b[J[0]])  # 删除第J组社团,(都合并到I组中了)self.c[iter_num] = b.copy()return e, bdef Run_FN(self):e = self.A / self.num_edge  # 社区i,j连边数量占总的边的比例a = np.sum(e, axis=0)  # e的列和,表示与社区i中节点相连的边占总边数的比例b = [[i] for i in range(self.num_node)]  # 本轮迭代的社团分布Q = []iter_num = 0while len(e) > 1:num_com = len(e)detaQ = -np.power(10, 9) * np.ones((self.num_node, self.num_node))  # detaQ可能为负数,初始设为负无穷for i in range(num_com - 1):for j in range(i + 1, num_com):if e[i, j] != 0:detaQ[i, j] = 2 * (e[i, j] - a[i] * a[j])if np.sum(detaQ + np.power(10, 9)) == 0:breake, b = self.merge_community(iter_num, detaQ, e, b)a = np.sum(e, axis=0)# 计算Q值Qt = 0.0for n in range(len(e)):Qt += e[n, n] - a[n] * a[n]Q.append(Qt)iter_num += 1max_Q, community = self.get_community(Q)return max_Q, communitydef get_community(self, Q):max_k = np.argmax(Q)community = self.c[max_k]return Q[max_k], community

运行结果如下:在这里插入图片描述
Q值:0.3806706114398422
算法执行时间0.00400090217590332
可以看到与GN算法相比,GN算法模块度略微下降,但执行时间快了很多。

代码与数据集下载


http://www.ppmy.cn/news/508352.html

相关文章

Gn 与 Ninja学习和使用

最近开始研究OpenHarmony,发现大多数鸿蒙系统的组件的编译构建都是用 gn 和 ninjia 完成的。之前在编译Google开源的代码时有过接触,但是没有对其进行深入学习使用,只知道它是谷歌弄出来的替代make的东西,据说相对于GUN make速度有…

Unity游戏打包以后无法获取配置文件信息

描述:在Unity编辑器下是可以读取到配置文件的,但是Build以后,就报错: 经过查看帖子以后,才发现Unity读取文件这个地方还是有很多讲究的。我之前的文件路径是这样写的: 这个路径只对应在Editor模式下运行的目…

【复杂网络社团发现】GN算法步骤详解(附python代码实现)

GN算法 作为一种分裂的层次聚类方法,GN算法通过不断从原图中删除边从而达到生成分裂树的目的(从而形成社团)那么关键点就在于,如何评判删除标准了(本文暂仅详述步骤,对于这一点不作详细解答) …

GN语言和操作

GN语言和操作 GN语言和操作 内容介绍 使用内置的帮助设计理念 语言 字符串清单条件语句循环函数调用作用域和执行Scoping and execution 命名事物 文件和目录名称 构建配置目标CONFIGS 公共配置 模板其他特性 Imports路径处理模式执行脚本 与Blaze的区别和相似之处 介绍 本页面…

GN实践详解

跨平台:GN实践详解(ninja, 编译, windows/mac/android实战) 置顶 TechGhost 2019-03-08 17:54:12 6417 收藏 24 分类专栏: 跨平台 文章标签: GN windows/mac/android 编译 跨平台 ninja 版权声明:本文为…

Chromium GN 参照(chromium GN 构建系统学习参考)

来源于Google原文档 原链接: https://chromium.googlesource.com/chromium/src//eca97f87e275a7c9c5b7f13a65ff8635f0821d46/tools/gn/docs/reference.md#args_specifies-build-arguments-overrides GN自我学习入门 GN Reference This page is automatically ge…

GN及Ninja基本语法

1、.gn是源文件;.gni是头文件,类似C中的头文件.h 通过import进行引用 import("//build/config/c/c.gni") 2、gn有许多内置变量和内置方法可以直接调用 内置函数: print/assert 内置变量: sources 3、目标项 | Targets 目…

chromium中的GN构建系统

阅读最新的chromium源码,发现项目的构建系统已经从GYP全面切换到GN了。在软件开发中,经常有人忠告:不要重复造轮子。但谷歌可不管这个,造的轮子一个接一个,谁叫人家牛呢?chromiumi项目为啥要折腾构建系统呢…