用于半监督的图扩散网络 笔记

server/2024/12/22 20:18:36/

1 Title        

        Graph Neural Diffusion Networks for Semi-supervised Learning(Wei Ye, Zexi Huang, Yunqi Hong, and Ambuj Singh)【2022】

2 Conclusion

        This paper proposes a new graph neural network called GND-Nets (for Graph Neural Diffusion Networks) that exploits the local and global neighborhood information of a vertex in a single layer. Exploiting the shallow network mitigates the over-smoothing problem while exploiting the local and global neighborhood information mitigates the under-smoothing problem. The utilization of the local and global neighborhood information of a vertex is achieved by a new graph diffusion method called neural diffusions, which integrate neural networks into the conventional linear and nonlinear graph diffusions. 

3 Good Sentences

        1、Graph Convolutional Networks (GCN) is a pioneering model for graph-based semi-supervised learning. However,GCN does not perform well on sparsely-labeled graphs. Its twolayer version cannot effectively propagate the label information to the whole graph structure (i.e., the under-smoothing problem)while its deep version over-smoothens and is hard to train
(i.e., the over-smoothing problem).(The problems of previous GCN methods meet)
        2、JK-Nets proposes to aggregate the output of each layer by skipping connections.
It selectively exploit information from neighborhoods of different locality. Indeed, the performance of GCN is improved by aggregating the output of each layer, but not significantly. One reason is that the deep GCN model with many graph convolutional layers is hard to train.(The reason why previous improvements of GCN only had little role)        
        3、Differing from traditional linear graph diffusions such as the personalized PageRank diffusion and the heat kernel diffusion, the weighting parameters in neural diffusions are not fixed but learned by neural networks, which makes neural diffusions adaptable to different datasets.(The advantages of GND-Nets expect exploiting the shallow network mitigates the over- smoothing problem while exploiting the local and global neighborhood information mitigates the under-smoothing problem)
        4、Considering that the multiplication of matrices in Eqn. (1) has a high time complexity (O(n^2)) and the eigendecomposion of L is prohibitively expensive (O(n^3)) especially for large
graphs, we can circumvent the problem by approximating gθ by a truncated expansion in terms of Chebyshev polynomials T_k(x) up to the K-th order.(The solution of the problem of excessive time complexity)


图卷积:,其中x∈R^n是顶点上的信号(特征向量),g_\theta\Lambda上的光谱滤波器,由θ∈R^n参数化,U^Tx是信号x的图形傅里叶变换。这个公式的时间复杂度比较大 O(n^3),可以通过用切比雪夫多项式T_k(x)直到K阶的截断展开式逼近g_\theta来解决这个问题:,\tilde{\Lambda }=\frac{2}{\lambda _{max}}\Lambda -I\lambda _{max}L的最大特征值,θ ∈R^K是切比雪夫系数的向量,那么图卷积公式可以写成:,这个公式是K局部化的,即,它仅依赖于与中心顶点相距最大K跳距离的顶点(K阶邻域),其时间复杂度为O(e),e是图的边数。

通过设置K = 1和λmax = 2,GCN简化了方程:,再通过设置\theta =\theta _0 =- \theta _1并使用L_{sym},公式可以被改写为:,因为的范围在0~2之间,重复这一学习规则将导致深度神经网络中的数值不稳定性和爆炸/消失梯度问题。为了解决这个问题,GCN使用了一种重正化技巧:,把范围变成了-1~1。

这样就可以把上面的公式推广到图中所有顶点上的信号矩阵X:,其中θ∈R^{d \times r}是滤波器参数矩阵,r是顶点特征向量上的滤波器数量。

然后,GCN的分层传播规则被定义如下:

其中H^{(0)}= X,\Theta ^{k-1}是第k-1层中的可训练滤波器参数矩阵,σ(\cdot)是激活函数。

图扩散方法,就是将标签信息传播到整个图结构。具体来说,假设顶点标签满足同向性原则即彼此连接的顶点很可能具有相同的标签。

其中u^{(0)}是长度为n(顶点数)的向量,其每一项表示每个顶点处的初始材质。\alpha _k是非负的,它满足滑\sum _k\alpha _k=1 ,并作为衰减权重来确保扩散消散。u^{(K))}捕获在图形边缘的扩散。

如果,那么上式为PageRank扩散。如果,那么为热核扩散。

Local and Global Neighborhood Information

     本文(1)将所有中间非线性激活函数设为线性激活函数σ(x) =x,(2)用\tilde{W}=\tilde{D}^{-1}\tilde{A}替代\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}(3)将所有权重矩阵重新参数化为单个矩阵。这样,GCN的分层传播公式就变成了可以被认为是通过在顶点特征矩阵x上应用linear层(由θ参数化)来计算的,对于每个列向量z,z\in Z,如果图结构是非二部图,那么通过多次迭代向量会收敛,其极限值将是矩阵W的主要特征向量。

这个定理表明:如果 k 非常大且 λ1 > λ2 > ... > λn,其中 λ1 到 λn 是矩阵的特征值,那么矩阵的每一列特征都会收敛到矩阵的主要特征向量 u1,而不考虑矩阵 X 和 Θ。其中 X 是输入特征矩阵,Θ 是参数矩阵。也就是说当 k 很大时,GCN 模型会倾向于收敛到矩阵 W 的主要特征向量,而忽略了输入特征矩阵 X 和参数矩阵 Θ 的影响,从而导致模型性能下降。

这在分类方面来说基本没什么用,但在收敛过程中产生的中间向量可能比较有用。比如下图,k=10000时分不出类了,但k=19的中间向量还是比较好分类的。在这个过程中,没有使用标签信息来指导学习。如果图结构的拉普拉斯矩阵捕获了成对顶点的相似性,即,图满足同向性原理,则幂迭代将使聚类分离,并且所提供的标签信息将加速该过程

Neural Diffusions:

        GCN仅使用一次幂迭代(k = 1),这不足以在标记顶点数量稀少时将标记信息传播到整个图结构。本文使用k = K次幂迭代来生成中间矩阵序列,本文建议将这些矩阵中包含的所有局部和全局邻域信息聚合在一个层中,用于稀疏标记图上的半监督分类。聚合是通过单层感知器(SLP)等神经网络实现的,

SLP的聚合定义为:

是SLP的加权参数。

之前的公式是截断图扩散,而通过放松约束,允许\alpha _k为任意值并让SLP自适应地学习它们,就得到了一种新的图扩散方法:神经扩散。

实现的时候要注意:首先展平 W^kZ (0 ≤ k ≤ K − 1) 成为向量,并且考虑把维度跃迁作为特征属性。最后使用SLP来聚合所有这些K向量。由于SLP的滤波器数量设置为1,需要通过f^{-1}将SLP的输出整形为矩阵H(K) \in R^{n \times r},其维数与z相同。H^{(K)}是一种线性图扩散。


http://www.ppmy.cn/server/9703.html

相关文章

02.Vue2.x Vue模版语法

文章目录 Vue模版语法 Vue模版语法 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>模版语法<…

LeetCode 3.无重复字符发最长字串

目录 题目描述 方法一 思路&#xff1a; 代码&#xff1a; 题目描述 给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长 子串 的长度。 示例 1: 输入: s "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc"&#xff0c;所以…

牛客NC162 二叉树中和为某一值的路径(三)【中等 dfs C++、Java、Go、PHP】

题目 题目链接&#xff1a; https://www.nowcoder.com/practice/965fef32cae14a17a8e86c76ffe3131f 思路 既然要找所有路径上节点和等于目标值的路径个数&#xff0c;那我们肯定先找这样的路径起点啊&#xff0c; 但是我们不知道起点究竟在哪里&#xff0c; 而且任意节点都有…

使用QQ邮箱进行登录验证

使用场景不多说&#xff0c;接下来直接看实现~ 登录到QQ邮箱&#xff0c;进入设置 打开IMAP/SMTP服务&#xff0c;记得把授权码记录下来&#xff0c;后面配置文件中需要用到 新建application的配置文件 spring:mail:# 指定邮件服务器地址host: smtp.qq.comusername: 你自己的q…

R语言绘制动态网络图Network教程WGCNA

今天分享的笔记是使用NetworkD3对WGCNA的共表达网络进行可视化&#xff0c;创建交互式动态网络图&#xff0c;展示基因之间的相互关系&#xff0c;可以用于转录组或者其他调控网络展示。 加权基因共表达网络分析 (WGCNA, Weighted correlation network analysis)是用来描述不同…

Marching Cubes算法

Marching Cubes算法 1. 简介2. 算法原理的理解2.1 如何找到面经过的这些小块(六面体)&#xff1f;2.2 找到后&#xff0c;如何又进一步的找到面与这些小块(六面体)的交点&#xff1b;2.3 这些交点按照怎么的拓扑连接关系连接&#xff0c;是怎么操作的&#xff1f; 3. 总结4. 参…

pip安装swig@FreeBSD

SWIG (Simplified Wrapper and Interface Generator) 是一个用于连接 C/C 代码与其他高级编程语言&#xff08;如Python、Java、C# 等&#xff09;的工具。它允许开发人员将现有的 C/C 代码封装成可以在其他语言中调用的接口&#xff0c;而无需手动编写大量的代码。 SWIG 的工…

手机文件怎么传给商家打印?

在数字化时代&#xff0c;手机已经成为我们生活和工作中不可或缺的工具。当需要将手机中的文件传给商家打印时&#xff0c;传统的打印店往往要求通过微信等社交软件传输文件&#xff0c;这种方式非常操作繁琐。那么&#xff0c;手机文件怎么传给商家打印呢&#xff1f;琢贝云打…