GAT

Paper : Graph Attention Networks
Code :

摘要

注意力机制的核心在于对给定信息进行权重分配，只关注最相关的输入来进行决策。当注意力机制用来生成一个序列的表示时，也被称作是自注意力机制。注意力机制的表示形式如下

在这里插入图片描述
假定Source是需要系统处理的信息源，Query代表某种条件或者先验信息，Attention Value是给定Query信息的条件下，通过注意力机制从Source中提取得到的信息。一般Source里面包含有多种信息，我们将每种信息通过Key-Value对的形式表示出来，那么Attention定义为

$\text{Attention(Query,Source)} = \sum_i\text{similarity(Query,Key}_i)\cdot\text{Value}_i$

其中 $\text{similarity(Query,Key}_i)$ 表示权重，当Query与Key越接近时，答案越依赖于对应的Value的值。GAT将Attention机制应用到GNN中，Attention机制的三要素分别对应到图中的以下要素

Query : 某节点的特征向量
Source : 上一层所有邻居节点的特征向量
Attention Value : 经过聚合后形成的当前层某节点的特征向量

GAT具有以下几个特点

操作高效，可以在节点-邻居之间进行并行化计算
通过对邻居指定任意权重，可以应用于度数不同的图节点
该模型直接适用于归纳学习问题，包括必须将模型推广到完全不可见图的任务

GAT结构

GAT层的输入是节点的特征表示 $\text h = \{\overrightarrow{h}_i| 1\leq i\leq N\}$ ，其中 $\overrightarrow{h}_i \in \mathbb R^F$ ，输出是聚合后节点的新的特征表示 $\text h' = \{\overrightarrow{h'}_i| 1\leq i\leq N\}$ ，其中 $\overrightarrow{h'}_i \in \mathbb R^{F'}$ 。与其他MPNN结构GNN层相似，GAT层需要学习一个线性映射 $W\in\mathbb R^{F'\times F}$ ，而节点 $j$ 对于节点 $i$ 的注意力权重定义为
$e_{i,j} = a(W\overrightarrow h_i, W\overrightarrow h_j)$

最通用的形式下，该注意力机制可以表示任意节点 $j$ 对任意节点 $i$ 的权重，但是一般限制为一阶邻居和自己，即
$\\j\in \widetilde N(v_i) \\ \widetilde N(v_i) = N(v_i) \cup\{v_i\}$

为了便于比较不同节点之间的相关系数，需要对节点 $i$ 所有的邻居节点 $j$ 的权重进行正则化

$\alpha_{i,j} = \text{softmax}_j(e_{i,j}) = \frac{\exp(e_{i,j})}{\sum_{v_k\in \widetilde N(v_i)}\exp(e_{i,k})}$

对于 $e_{i,j}$ ， $a$ 可以选择为非参数的相似度函数，也可以选择使用参数化的模型来输出相似度。在GAT中采用单层全连接网络进行相似度评估，即 $\overrightarrow a \in \mathbb R^{2F'}$ ，并使用LeakyReLU 参数 $\alpha = 0.2$ ，最终权重可以表示为

$\alpha_{i,j} = \frac{\exp(\text{LeakyReLU}(\overrightarrow a^{\text T}[W\overrightarrow h_i||\overrightarrow h_j]))}{\sum_{v_k\in\widetilde N(v_i)}\exp(\text{LeakyReLU}(\overrightarrow a^{\text T}[W\overrightarrow h_i||\overrightarrow h_k]))}$