Pretraining Language Models with Text-Attributed Heterogeneous Graphs

EMNLP

推荐指数：#paper/⭐⭐#

贡献：

我们研究了在更复杂的数据结构上预训练LM的问题，即，TAHG。与大多数只能从每个节点的文本描述中学习的PLM不同，我们提出了一个新的预训练框架，使LM能够捕获不同节点之间的拓扑连接。
作者引入了一个拓扑感知的预训练任务去预测文本图的节点是否在文本图中。这可以使得LM可以利用高阶的信号
作者设计了一种文本增强策略来丰富无文本节点的语意信息，以缓解文本不平衡问题

异构文本属性图介绍(TAHGs)

$\mathcal{G}=(\mathcal{V},\mathcal{E},\mathcal{U},\mathcal{R},\mathcal{X})$ ，依次分别代表：节点属性，边，节点类型，边类型，节点文本描述。

模型架构

第一个模块提取目标节点的上下文，比国内通过联合优化LM和异构图神经网络来预测哪些节点涉及文本图。第二个模块是为了引入节点不平衡的文本描述。值得注意的是，当预训练结束之后，我们只使用PLM在下游任务上测试。

拓扑捕获阶段

这一部分，如上所示，我们的目的是捕获节点之间的一阶和高阶信息。

首先，我们定义context图。(及一个节点的邻域图)。 $\mathcal{G}_{u}^{K}$ 代表节点u的K阶内邻居集合。当K大于2，及捕获高阶信息。

Context 图预测（Context Graph Prediction）(GCP)

TAHGs包含多阶邻居信息。和大多数PLM对单个文本进行预训练不同，我们提出了上下文图预测来训练LM捕获丰富的关系信息。

首先，我们得到节点V的表征如下：

$H^{\mathcal{G}}=f_{HGNN}\left(\mathcal{G}\right)\in\mathbb{R}^{|\mathcal{V}|\times d},$ 其初次输入是通过下面的式子(文本编码)得到的。

$f_{HGNN}(\cdot)$ 可以表示任何异构图神经网络。

之后，我们编码文本图节点u的描述通过LM：

$\boldsymbol{h}_{LM}^u=\mathrm{MEAN}(f_{LM}\left(X_u\right))\in\mathbb{R}^d,$

为了捕获节点u的异构性，我们引入了一个映射头在PLM的最后一层。下一步，我们预测节点v是否在context 图中：(这是一个二分类问题)

$\hat{y}_{u,v}=\operatorname{sigmoid}\left(\boldsymbol{h}_{LM}^{u}{}^{\top}\boldsymbol {W}_{\phi(v)}\boldsymbol{H}_{v}^{\mathcal{G}}\right)$

$y_{u,v}=1$ 如果 $G_u^K$ 包含v，否则为0。

预训练策略

在这个工作中，我们使用BERT以及R-HGCN。

预测上述所有节点的context graph 概率是很困难的（ $y_{u,v}$ ），因此我们使用负样本采样去优化上述公式。为了生成负样本，我们采样k个邻居对于每个跳，负样本从 $\mathcal{V}\setminus\mathcal{V}_{\boldsymbol{u}}^{K}$ 中采样，负样本比是5(一个正样本对应5个负样本)。对于GCPtask,我们使用MLM任务去帮助LMs更好的处理文本。最终的优化目标为：

$\mathcal{L}_{u}=\mathcal{L}_{u}^{MLM}+\mathcal{L}_{u}^{CGP}=-\log P(\tilde{X}_{u}|X_{u\setminus\bar{X}_{u}})-\sum_{v\in\mathcal{V}_{u}^{K}}\log\hat{y}_{u,v}-\sum_{i=1}^{5}\mathbb{E}_{v_{i}^{\prime}\sim P_{\boldsymbol{n}}(\mathcal{V}\setminus\mathcal{V}_{\boldsymbol{u}}^{K})}\log\left(1-\hat{y}_{u,v_{\boldsymbol{i}}^{\prime}}\right),$

$\tilde{X}_{u}$ 代表扰动的节点，原始文本的masking rate是40%。 $P_n(\cdot)$ 代表正太噪音分布。

文本增强策略

TAGs中有文本丰富的图，也有textless的图。textless的图不足以反映他们的语意，因此我们涉及了一种文本增强策略来解决这个问题。这个策略首先根据TAHGs中的链接结合其邻居的文本描述，来丰富无文本节点的语意，然后通过LM来增强文本。

具体的是，对于text-rich的节点u，我们可以使用token作为输入： $M_{u}$ =

$[\mathrm{CLS}]X_{u}\mathrm{[SEP]}$ 。对于text-less的节点u，我们可以拼接它的文本和k个邻居采样的文本作为输入： $M_{u}$ = $X_{u}\mathrm{~[SEP]~}X_{\mathcal{N}_u^1}\text{ [SEP] ... [SEP]}X_{\mathcal{N}^k} \mathrm{~[SEP],}$