MTGNN论文解读

模型架构

MTGNN 由多个模块组合而成，目标是捕捉多变量时间序列中的空间（变量间）和时间（时序）依赖。

图学习层：用于自适应地学习图的邻接矩阵，发现变量之间的关系。
图卷积模块：根据邻接矩阵处理节点间的空间依赖。
时间卷积模块：通过时间轴上的卷积提取时序特征。
输出模块：将中间结果转换为最终预测结果。

1 图学习层 (Graph Learning Layer)

图学习层通过数据自适应地学习邻接矩阵，以捕捉时间序列数据中的隐藏关系。传统方法使用相似性度量（如点积或欧几里得距离）来构造图，但这种方式导致 O(N²) 的计算复杂度，限制了对大图的处理能力。

而作者采用采样策略，每次仅计算部分节点的关系，从而降低计算和内存成本。此外，传统方法生成的邻接矩阵是对称的（即 A[i,j]=A[j,i]），表示节点之间的关系是双向的。但时间序列中的依赖关系可能是单向的（例如，一条道路的拥堵可能会影响下游道路，但反过来未必成立）。通过如下公式即可确保邻接矩阵是单向的。

上述公式中， M₁ 和 M₂ 为节点嵌入矩阵，α 是用于控制激活函数饱和率的超参数。 $M_{1}[i]M_{2}[j]^T$ 表示道路 i 的流量对道路 j 流量的影响， $M_{2}[j]M_{1}[i]^T$ 表示道路 j 的流量对道路 i 流量的影响。如果 $M_{1}[i]M_{2}[j]^T-M_{2}[j]M_{1}[i]^T$ 的值为正，则表示道路 i 对道路 j 的影响强于道路 j 对道路 i 的影响。如果结果为负，Relu 激活函数会将负值截断为 0，保留单向依赖关系的非负部分。

其次，通过保留每个节点的前 k 个邻居，并将其他权重置为 0，可以进一步降低复杂度。

2 图卷积模块 (Graph Convolution Module)

传统图卷积网络的一个严重限制是，随着图卷积层数趋于无穷，相邻节点的特征会逐渐融合，节点隐藏状态会收敛到一个单点。这是因为具有许多层的图卷积网络会达到随机游走的极限分布，而与初始节点状态无关，这就产生了过平滑问题（over-smoothing problem）。为解决这个问题，作者在传播过程中保留一定比例的节点原始状态，以便传播的节点状态既能保留局部性又能探索深层邻域。

具体来说，作者设计的图卷积模块通过 Mix-hop 传播层融合节点和邻居的信息，以处理图中的空间依赖性。Mix-hop 传播层包括两部分：信息传播和信息选择。

信息传播：保留一部分节点自身状态（通过 $\beta$ 调节），同时以递归方式沿图结构传播邻居的信息。
信息选择：通过线性变换筛选重要的节点特征，防止无用信息累积（通过 $W^{(k)}$ 训练学习各层传播特征的权重）。

3 时间卷积模块 (Temporal Convolution Module)

时间卷积模块由两个膨胀卷积层组成。一个膨胀卷积层后接 tanh 激活函数，用作过滤器；另一个膨胀卷积层后接 sigmoid 激活函数，用作门控控制。

卷积核设置的大小一直是 CNN 的一个难题。太大会无法精细地表示短期信号模式，或者太小无法充分发现长期信号模式。因此，作者借鉴了图像处理中的 inception。由于时间信号往往具有几个固有周期，如 7、12、24、28 和 60，具有 1×1、1×3 和 1×5 滤波器尺寸的 inception 层堆叠不能很好地涵盖这些周期（太小）。因此，作者提出了一个由四个滤波器尺寸（即 1×2、1×3、1×6 和 1×7）组成的时间 inception 层。