Towards Graph Foundation Models: A Survey and Beyond
WWW24
#paper/⭐⭐⭐# #paper/💡#
背景和动机
背景与意义
随着基础模型(如大语言模型)在NLP等领域的突破,图机器学习正经历从浅层方法向深度学习的范式转变。GFMs的提出旨在通过大规模图数据预训练,构建可适应多种图任务的通用模型,解决传统图模型泛化性不足的问题。
贡献:
- 本文首次定义了图基础模型的概念,并探讨了其能力的核心问题和特征
- 本文介绍了一种新颖的分类法,并讨论了图形基础模型的每种方法的优点和局限性
- 本文提供了图形基础模型的未来有希望的方向
核心概念
GFMs被定义为具有三大特征的新型图学习范式:
- 大规模预训练:基于海量异构图数据
- 任务无关性:支持下游任务的零样本或少样本迁移
- 通用表征能力:可同时处理节点/边/图级别的任务
技术分类
现有研究可分为三大技术路线:
-
GNN基模型
- 基于图神经网络架构(如GraphGPT、GraphMAE)
- 通过掩码重建等自监督目标预训练
- 优势:保留图结构特性,但扩展性受限
-
LLM基模型
- 将图数据转化为文本/序列(如GPT4Graph)
- 利用大语言模型的推理能力
- 优势:零样本能力强,但图拓扑建模存在局限
-
GNN-LLM融合模型
- 结合GNN的拓扑建模与LLM的语义理解(如GraphText、ChatGPT)
- 典型方法:图结构编码+文本特征融合
- 当前焦点:解决模态对齐与信息交互挑战
挑战与展望
未来研究方向包括:
- 架构创新:设计更高效的图tokenization方法
- 可扩展性:开发适用于超大规模图的训练框架
- 多模态融合:探索图结构与文本/视觉特征的深度交互
- 理论体系:建立GFMs的可解释性理论框架
- 评估标准:制定跨领域的统一评测基准
-
GNN-BASED-MODELs
Backbone Architectures
Message Passing-Based Methods
-
核心原理:通过局部邻居信息迭代聚合与更新节点表示,公式化为:
h v k + 1 = U k ( h v k , M u ∈ N ( v ) k ( h v k , h u k , X e ( u , v ) ) ) h^{k+1}_{v}= U^{k}\left( h^{k}_{v}, M^{k}_{u \in N(v)}\left( h^{k}_{v}, h^{k}_{u} , X_{e}^{(u,v)}\right) \right) hvk+1=Uk(hvk,Mu∈N(v)k(hvk,huk,Xe(u,v)))
-
其中 h v k h^k_v hvk为节点 v v v第 k k k层嵌入, X e ( u , v ) X_e^{(u,v)} Xe(u,v)为边 属性, M k M^k Mk为聚合函数, U k U^k Uk为
更新函数。 -
典型模型:
- GCN:基于谱图卷积的一阶近似,广泛用于同构图。
- GAT:引入注意力权重分配邻居重要性
- GraphSAGE:通过邻居采样与聚合支持大规模图。
- HGT:针对异构图设计类型感知的注意力
- GIN:理论表达力等价于1-WL测试,适合复杂结构建模。
Graph Transformer-Based Methods
-
核心原理:将图视为全连接网络,利用全局自注意力捕捉长程依赖(对比见图3)。
-
关键改进:
- 位置编码:GraphBERT提出子图亲密度与跳数距离编码;Graphformer引入最短路径距离偏置项。
- 动态图建模:SimpleDyG 简化时序对齐,无需复杂结构修改。
- 异构图扩展:CoBFormer 通过双层级注意力平衡局部与全局信息。
-
理论分析:文献 对比虚拟节点与自注意力机制在长程依赖中的表现差异。
Pre-training
Contrastive Methods
-
目标:最大化不同视图间的互信息(MI),增强语义鲁棒性。
-
方法分类:
-
同尺度对比:
- 节点级:GraphCL 、GRACE通过图增强生成正负样本。
- 子图级:GCC对比同一节点的不同子图嵌入。
-
跨尺度对比(局部全局) :
- DGI对比节点与图级嵌入;CPT-HG 结合关系级与子图级任务。
-
Generative Methods
-
目标:通过重构或属性预测学习通用图语义。
-
方法分类:
-
图重构:
- VGAE 重构邻接矩阵;GraphMAE 重构图属性并引入掩码解码策略。
- GPT-GNN 联合生成边与节点属性。
-
属性预测:
- GROVER 预测分子图的化学属性(如官能团)。
-
-
跨领域预训练:FOTOM 通过多领域对抗对比学习提升泛化性。
Adaptation
Fine-Tuning
-
常规微调:
- DGI、GRACE 使用预训练编码器生成嵌入,微调分类器。
- GPT-GNN 微调任务特定解码器适配下游任务。
-
高效微调:
- AdapterGNN 插入轻量适配器模块;G-Adapter在图Transformer中融合消息传递。
Prompt Tuning
-
策略分类:
-
前提示(Pre-prompt) :
- GPF添加可优化特征向量至节点;AAGOD 修改邻接矩阵结构。
-
后提示(Post-prompt) :
- GraphPrompt将分类任务转化为子图相似性匹配。
-
混合提示:MultiGPrompt、HGPROMPT结合双模板设计支持异构图。
-
Discussion GNN-based method
-
优势:
- 结构归纳偏置:天然支持置换不变性,高效捕捉局部拓扑模式。
- 计算轻量:参数量小(如GIN仅需百万级参数),适合资源受限场景。
- 小样本泛化:通过图传播增强稀疏标注下的性能(如半监督节点分类)。
-
局限性:
- 文本建模缺失:未显式利用节点/边附带的文本语义(如商品描述、论文摘要)。
- 知识容量有限:缺乏LLM的通用知识库(如化学反应规则、社交网络常识)。
-
未来方向:
- 与LLM融合:结合语言模型的语义理解能力(如将文本属性编码为图特征)。
- 动态图扩展:优化时序依赖建模(如SimpleDyG在动态交易网络中的应用)。
- 跨模态预训练:如GraphControl通过控制网络适配多领域下游任务。
LLM-BASED MODELs
LLM-based Models
Backbone Architectures
-
Graph-to-token
-
核心思想:将图数据序列化为Token,与自然语言对齐输入LLM。
-
关键方法:
- GIMLET :将节点表示视为Token,扩展LLM支持图与文本多模态输入,引入广义位置编码。
- InstructGLM:将图节点特征向量扩展为LLM词表Token(如LLaMA/T5),支持跨模态预训练。
-
优势:保留图结构特征,支持可微调的开源LLM(如LLaMA)。
-
挑战:难以显式编码底层图拓扑关系(如长程依赖)。
-
-
Graph-to-text
-
核心思想:用自然语言描述图结构与属性,通过文本提示驱动LLM推理。
-
关键方法:
-
基础格式:
- 边列表:LLMtoGraph 、NLGraph 使用边列表描述图结构(如“A→B”)。
- 图语法树:GraphText提出结构化自然语言模板(Graph-syntax Tree)增强推理可解释性。
-
进阶优化:
- 压缩提示:TextForGraph 设计精简文本模板减少输入长度。
- 自生成提示:GPT4Graph 结合人工模板与LLM自生成的图摘要/探索提示。
-
-
优势:兼容闭源LLM(如GPT-4),支持零样本推理。
-
挑战:复杂图结构描述易导致信息损失(如动态图时序关系)。
-
Pre-training
-
Language Modeling (LM)
-
原理:通过自回归语言建模(预测下一个Token)预训练LLM,公式为:
p ( s 1 : L ) = ∏ l = 1 L p ( s l ∣ s 0 : l − 1 ) p(s_{1:L}) = \prod_{l=1}^L p(s_l | s_{0:l-1}) p(s1:L)=l=1∏Lp(sl∣s0:l−1)
-
应用模型:
- 主流LLM:LLaMA 、GPT-3等均基于LM预训练。
- 图领域扩展:InstructGLM 、Graph-LLM 等将图数据融入LM任务。
-
-
Masked Language Modeling (MLM)
-
原理:随机掩码输入Token,预测被掩码内容(如BERT的Cloze任务)。
-
应用模型:
- BERT/T5适配:Graph-LLM 使用MLM预训练的BERT处理图文本描述。
-
局限:掩码符号在微调阶段不存在,易导致预训练-下游任务差异。
-
Adaptation
-
Manual Prompting
-
策略:人工设计自然语言提示模板对齐图任务与LLM输入。
-
典型方法:
-
结构化描述:
- 分子图:LLM4Mol使用SMILES字符串描述分子结构。
- 指令模板:InstructGLM 为中心节点设计任务指令(如分类、链接预测)。
-
多格式实验:GPT4Graph 对比边列表、邻接表、GML等描述格式效果。
-
-
-
Automatic Prompting
-
策略:利用LLM自动生成图相关提示,减少人工干预。
-
典型方法:
- 图摘要:GPT4Graph 生成目标节点的邻居摘要。
- 图探索:通过LLM生成查询序列主动挖掘图结构(如Graph-LLM )。
-
优势:缓解人工模板的次优问题,提升复杂任务泛化性。
-
Discussion
-
优势:
- 多模态融合:无缝整合图结构与文本语义(如商品描述→图节点属性)。
- 任务统一性:通过自然语言指令统一图学习任务(如分类、生成、推理)。
- 零样本潜力:闭源LLM(如GPT-4)可直接处理图文本描述,无需微调。
-
局限性:
- 结构建模弱:难以捕捉图拓扑特性(如社区结构、动态演化)。
- 长文本瓶颈:复杂图描述超出LLM上下文窗口限制(如万节点级图)。
- 逻辑推理局限:多跳推理(如分子反应路径)易产生幻觉。
-
未来方向:
- 结构化提示:结合图语法树(Graph-syntax Tree)增强逻辑表达能力。
- 高效压缩技术:开发图结构的高效文本压缩算法(如层次化描述)。
- 多模态对齐:探索图-文本-图像的联合表示(如Meta-Transformer)。
GNN+LLM-BASED MODELS
核心架构分类
根据模型主导类型,方法可分为三类:
-
GNN为中心的方法 (GNN-centric)
-
核心思想:利用LLM提取文本特征,由GNN主导预测任务。
-
代表性工作:
- GraD:通过参数高效微调LLM生成节点表征,输入GNN进行下游任务(分类/链接预测)。
- GIANT:基于图结构的自监督学习微调LLM,使文本表征包含图拓扑信息。
- WalkLM:通过属性随机游走生成文本序列,微调LLM以捕获属性语义与图结构。
-
局限:文本编码阶段缺乏节点间信息交互(如TAPE生成的图无关特征)。
-
-
对称方法 (Symmetric)
-
核心思想:对齐GNN与LLM的嵌入空间,实现结构感知的文本表征。
-
关键技术:
- GraphFormer:迭代融合GNN的图聚合与Transformer的文本编码,但存在可扩展性问题。
- GLEM:变分EM框架交替更新LLM与GNN,结合局部文本与全局结构信息。
- 对比学习(如CLAMP):通过图-文本对比损失对齐分子图与文本描述(如生物活性预测)。
-
优势:支持跨模态任务(如文本-图检索)。
-
-
LLM为中心的方法 (LLM-centric)
-
核心思想:利用GNN增强LLM的图推理能力,弥补其在数学计算、拓扑感知等领域的不足。
-
典型应用:
- GraphGPT:通过图指令微调使LLM理解复杂图结构。
- InstructGraph:指令调优赋予LLM图生成与推理能力。
- MolCA:跨模态投影器使LLM兼容分子图与文本信息。
-
预训练策略
基于GNN或LLM的预训练
- 主流方法:掩码语言建模(MLM)、语言建模(LM)、文本-文本对比学习(TTCL)。
- 案例:GIANT、GraD采用MLM;TAPE使用LM;SimTeG通过TTCL增强语义相似性建模。
-
基于对齐的预训练
- 核心目标:对齐图与文本的嵌入空间(如分子图与描述文本)。
- 关键技术:图-文本对比学习(GTCL),最小化对比损失(如CLAMP中的NCE损失)。
适应策略
-
微调 (Fine-tuning)
- 全参数微调:直接调整模型参数(如GraphFormer),但计算成本高。
- 参数高效微调:仅优化部分参数(如LoRA适配器),应用于分类任务(GraD)或文本生成(MolCA)。
-
提示调优 (Prompt-tuning)
-
核心思想:通过设计提示词激活LLM的预训练知识,无需额外参数调整。
-
案例:
- G2P2:自动优化提示词适配下游任务。
- TAPE:结合文本特征生成预测列表与解释。
-
挑战与未来方向
-
关键挑战
- 模型对齐:缺乏统一的嵌入空间对齐标准(语义与结构信息需兼顾)。
- 可扩展性:图规模扩大时计算复杂度激增(如GraphFormer的内存问题)。
- 多模态融合:如何高效整合图、文本、图像(如GIT-Mol的三模态模型)。
-
未来方向
- 动态交互框架:开发迭代式GNN-LLM交互机制(突破当前串行处理限制)。
- 轻量化设计:探索更高效的参数共享与压缩策略(如ENGINE的侧链结构)。
- 跨领域泛化:构建统一框架支持分子科学、社交网络等多领域应用。
总结
GNN与LLM的融合通过互补优势(结构分析与语言理解)显著提升了图任务的性能,尤其在跨模态检索、分子属性预测等领域表现突出。然而,模型对齐、计算效率与多模态融合仍是核心挑战,需进一步探索动态交互框架与轻量化设计。
总结与展望
数据与评估挑战
-
数据数量与质量
- 数据稀缺性:当前开源的大规模图数据有限且多集中于单一领域(如社交网络、分子结构),缺乏跨领域的统一数据集,限制了图基础模型(GFM)的泛化能力。
- 数据质量缺陷:噪声数据、不完整图结构或低质量标注会显著降低模型性能。现有数据增强技术(如图结构学习、特征补全)主要针对传统GNN,需探索适配LLM或GNN+LLM混合模型的增强策略。
- 解决方案方向:构建跨领域多模态图-文本联合数据集(类似MoleculeSTM的分子图与描述对齐),开发面向混合模型的动态增强方法(如WalkLM的文本序列生成结合图游走)。
-
评估方法局限
- 开放任务评估难题:LLM支持的开放任务(如生成式问答、图语义推理)缺乏标准标签,需从人工评估转向元评估(如基于LLM的自动评分)。
- 多维度评估需求:除性能外,需评估模型的鲁棒性(对抗攻击下的稳定性)、可信度(如减少幻觉)及隐私安全性(如GNN的节点隐私泄露风险)。
- 案例参考:借鉴语言模型的信任评估框架(如GPT-4的Red Teaming测试),设计图任务的对抗样本生成与防御策略(如针对分子图的对抗扰动检测)。
模型架构与训练挑战
-
模型架构设计
- 超越Transformer的架构探索:现有架构(如GraphFormer的GNN-Transformer迭代)存在可扩展性问题,需研究高效替代方案(如基于图稀疏注意力的轻量化设计)。
- 多模态对齐瓶颈:GNN与LLM的嵌入空间对齐缺乏统一标准(如CLAMP通过对比学习对齐分子图与文本,但难以泛化到社交网络)。
- 潜在方向:结合动态路由机制(如Capsule Networks)实现层次化对齐,或利用神经符号方法(如逻辑规则注入)增强可解释性。
-
训练范式创新
-
预训练任务多样性:当前预训练以MLM/LM为主,需设计图-文本联合任务(如GIANT的图感知自监督学习),探索统一预训练目标(如跨模态对比学习)。
-
高效适应技术:
- 参数高效微调:采用LoRA等适配器技术(如GraD的LLM微调后接GNN)。
- 提示工程优化:通过指令模板激活LLM的图推理能力(如GraphGPT的图结构指令调优)。
-
前沿技术迁移:验证知识蒸馏(压缩大模型到轻量GNN)、RLHF(人类反馈强化对齐)在图任务中的可行性。
-
应用场景与可信赖性挑战
-
杀手级应用探索
- 药物研发:利用GFM建模蛋白质3D结构(如AlphaFold的几何图表示)与药物分子交互,加速靶点发现与毒性预测(参考CLAMP的生物活性对比学习)。
- 城市计算:将交通系统建模为时空图,实现统一预测(如出行需求、流量)与决策优化(如信号灯控制),突破传统单任务模型的局限。
- 案例突破点:结合LLM的生成能力(如分子描述生成)与GNN的结构推理(如蛋白质-配体结合位点预测),推动自动化药物设计。
-
可信赖性风险
-
安全与隐私:
- 幻觉抑制:通过置信度校准(如GraphPrompter的软提示约束)减少LLM的虚构输出。
- 隐私保护:采用联邦学习(分散式图数据训练)或差分隐私(如GNN的梯度扰动)降低敏感信息泄露风险。
-
公平性与鲁棒性:
- 去偏处理:在预训练中引入公平性约束(如节点分类的群体均衡损失)。
- 对抗防御:针对图结构攻击(如节点注入)设计鲁棒聚合机制(如GNN-Jaccard的异常边过滤)。
-
未来研究方向
- 数据与架构协同:构建“图-文本-图像”多模态预训练数据集(如GIT-Mol的三模态分子模型),探索动态交互架构(如GLEM的变分EM框架扩展)。
- 可信模型生态:开发图基础模型的评估标准库(涵盖安全、隐私、公平性指标),推动开源社区协作(如Open Graph Benchmark的扩展)。
- 跨领域泛化:设计统一框架支持社交网络、生物医药、城市计算等多场景,突破领域壁垒(如PATTON的网络-文本预训练策略迁移)。
总结
图基础模型在数据、模型与应用层面面临多重挑战,需通过跨模态对齐、训练范式创新及安全增强技术推动发展。未来突破将依赖于大规模高质量数据、动态架构设计及多领域协同验证,最终实现从“单一任务专家”到“通用图智能引擎”的跨越。