论文阅读（综述）——Graph foundation models: Concepts, opportunities and challenges

发表于 2025-07-14 更新于 2025-07-22 分类于论文阅读，大模型，图学习本文字数： 10k 阅读时长 ≈ 18 分钟

论文概况

题目：Graph foundation models: Concepts, opportunities and challenges

通讯作者：Chuan Shi： shichuan@bupt.edu.cn

作者院校：北京邮电大学，新加坡管理大学，伊利诺伊大学芝加哥分校等

发表于：TPAMI 2025

代码仓库：无

论文内容

摘要

基础模型已成为各类人工智能应用中的核心组件，在自然语言处理及多个其他领域展现出显著成效。与此同时，图机器学习领域正在经历从浅层方法向复杂深度学习方法的范式转变。基础模型强大的泛化与适应能力，促使图机器学习研究者开始探讨发展新型图学习范式的可能性——该范式旨在通过海量图数据预训练出可适配多种图任务的通用模型。尽管这一新兴领域引发了广泛关注，但目前仍缺乏明确的定义界定与系统化的分析框架。

为此，本文首次提出图基础模型（Graph Foundation Models, GFMs）的概念体系，并对其核心特征与支撑技术进行了全面阐释。我们依据模型对图神经网络与大语言技术的依赖程度，将现有研究成果划分为三大类型。除系统梳理GFMs研究现状外，本文还前瞻性地探讨了这一快速发展领域未来可能的研究路径。

介绍

基础模型具涌现性和通用性等特征，当下的基础模型能处理文本、图像、视频、音频等多模态输入。
图机器学习从随机游走、矩阵分解等浅层方法向深度学习转变，例如GNN引入消息传递机制在节点分类、链接预测、图分类和图聚类等任务中取得了显著成效，但在表达能力和泛化性方面仍有局限。
引出了对图基础模型（GFM）的研究，来实现在图领域的涌现性和泛化性。

背景

图深度学习

图数据特性

核心挑战源于：（1）其数据的非欧几里得性，在规模和形态上存在极大变异性。（2）不同领域的图数据具有不同的节点类型和边语义。（3）图数据包括同构图、异构图、超图和动态图等多种类型。

主干结构

GNN是主流结构，大多数遵循消息传递框架。例如，图卷积网络GCN（Semi-supervised classification with graph convolutional networks），采用归纳学习的GraphSAGE（Inductiverepresentationlearning on large graphs），图注意力网络GAT（Graphattention networks）。

但GNN深度增加会导致节点表征趋同以及信息过度压缩，改进方法包括DropEdge（Dropedge:Towardsdeepgraph convolutional networks on node classification）、图Transformer模型（Do transformers really perform badly for graph rep resentation?、Structure-awaretransformerfor graph representation learning、Rethinking graph transformers with spectral attention）等。

学习范式

监督学习：利用带有输入数据和输出标签的训练数据集应用于图分类和图回归等问题，如分子属性预测。
半监督学习：同时利用标记和未标记数据提升模型性能，如节点分类。
无监督学习：图聚类通过节点关系识别结构，链接预测推断缺失连接。

语言基础模型

语言数据特性

具结构化，更易建模；有知识迁移性，更易建立通用表征。

主干结构

预训练语言模型——大语言模型（扩大模型参数量和训练数据量）

学习范式

利用大规模标注数据集和无标注文本数据，执行（1）预训练-微调：首先作为语言模型学习预测文本数据的概率分布并通过微调使模型适配特定任务；（2）预训练-提示-预测：通过文本提示重构下游任务形式。

图基础模型

GFM定义：在大量图数据上预训练，并能适用于一系列下游图任务。
证明预训练（pre-training）加适应（adaptation）效果优于图深度学习：
- Graphprompt: Unifying pre training and downstream tasks for graph neural networks
- All in one: Multi-task prompting for graph neural networks
涌现性：体现在语境内学习、图推理、图生成等任务。但相关研究较少（如PRODIGY: Enabling in-context learning over graphs）。
通用性：体现在模型通用于多种任务，如节点分类、连接预测、图分类等，但难点在于如何协调表达各任务
预训练：
- 对比自监督学习（正负样本）：Deep graph contrastive representation learning
- 生成自监督学习（结构重建与预测）：Graphmae2:Adecoding-enhancedmaskedself-supervised graph learner
适应：
- 普通微调(Vanilla FT)：在特定任务数据上训练整个预训练模型
- 参数高效微调(Parameter-efficient FT）：调整模型参数的一个子集
GFM与LLM差异：语言模型专为处理欧几里得数据（文本）设计，而图模型则面向非欧几里得数据（图结构）或混合数据（如图属性），能捕捉更复杂的关联关系，但数据稀疏性显著，缺乏统一表征基础，图结构还可能呈现层次性、循环性等异质特征。

类别一：GNN-BASED MODELS

A. 主干结构

基于消息传递的方法（MPNNs）：

每个节点从邻居节点聚合信息，处理后继续传递，形如：

可以理解为：每个节点依靠上一层的本节点特征信息与各邻居节点和边的信息来更新。

GCN（图卷积网络）：通过局部一阶近似谱图卷积捕获图结构特征与编码节点属性。
GAT（图注意力网络）：采用注意力机制驱动的加权聚合策略。
GraphSAGE：采样固定规模的邻域节点子集，聚合处理这些采样邻居的嵌入表示进行学习。
HGT（异构图 transformer）：采用类型特异性参数来定义图中各边上的异构注意力。
GIN（图同构网络）：一种理论表达能力与1-WL图同构等价的基于消息传递的模型。

基于消息传递的图神经网络更详细的综述：2003.08271，2105.07342，ieeexplore.ieee.org/ielaam/34/10008914/9764632-aam.pdf

基于图transformer的方法：

GNN会遇到表达力有限、过平滑、过压缩等问题，因此图transformer受到关注，其利用注意力机制处理整张图。

GraphBERT：采用基于亲密度和跳数的相对位置编码来表示子图中节点的位置信息。
GROVER：采用定向消息传递网络捕捉分子图的方向特性并区分不同类型的边。
Graphormer：通过空间编码表征节点关系，将最短路径距离作为偏置项引入注意力机制。

关于图transformer更详细的综述：Attending to Graph Transformers | OpenReview

B. 预训练

利用大量未标注的节点和图的数据进行自监督预训练。

基于对比学习的预训练方法：

对比式图预训练方法旨在最大化不同视图（局部、上下文或全局视角）间的互信息，使模型学习跨视图不变的语义特征。

同尺度对比学习：对相同层级的图视图进行对比，如GCC将节点的子图嵌入作为表征，将同一节点的不同子图视为正样本、不同节点的子图作为负样本，通过噪声对比估计(NCE)损失实现正样本对齐与负样本分离，从而捕捉通用模式。其他方法还有GraphCL、GRACE、MA-GCL、GCOPE、FUG等
跨尺度对比学习：对比不同层级的图视图，如DGI利用最大化节点嵌入与全图嵌入的互信息，同时最小化节点与扰动图嵌入的信息量，促使编码器捕获图的全局信息，但会忽略不同节点间的差异性特征。

基于生成的预训练方法：

旨在使图神经网络理解图数据的通用结构与属性语义，从而使其能够基于通用信息适配下游任务。但生成式方法的准确性和合理性仍需提升。

图重构方法：重建给定图的特定部分。如VGAE采用GCN作为编码器生成节点嵌入，然后通过节点嵌入的内积重构邻接矩阵。其他方法还有GPT-GNN、GraphMAE等。
属性预测方法：学习并预测图的深层特性。如GROVER要求模型预测局部子图中的上下文相关属性，将基元预测建模为多标签分类问题。

C. 适应

预训练所使用的任务一般与下游任务不一致，因此需要微调技术来使模型适应新任务。尽管微调方法已取得显著成效，但通常需要大量标注数据来调整模型参数，计算开销大。

微调：

利用预训练模型生成节点嵌入或图嵌入，随后微调外部任务特定层，使预训练模型能够泛化至下游任务。

DGI和GRACE采用预训练编码器获取节点嵌入，再通过标注数据微调逻辑回归分类器以处理节点分类任务。
GPT-GNN利用标注数据微调下游任务特定解码器，引导预训练模型适配下游任务。
AdapterGNN在消息传递阶段前后设置并行适配器来修改输入图结构，此方法仅需微调新增参数。
G-Adapter使用面向图变换器的参数高效微调方法，通过消息传递将图结构融入微调过程。
G-TUNING使用基于图重构的GNN微调策略，保持生成模式并解决预训练与下游数据集间的结构差异。

提示词调优：

此方法避免全参数调整，在促进多任务适应与零样本学习方面展现出优势。

前提示方法：通过改造输入图的拓扑结构或节点特征来辅助下游任务，或构建提示图增强模型适应性。例如AAGOD使用以数据为中心的操作方法，通过在原始输入图的邻接矩阵上叠加可学习的提示放大器。其他方法还有All In One、GPF、PRODIGY、IGAP、TPP等
后提示方法：在消息传递后的表征上应用任务特定提示。例如GPPT采用提示函数生成每个类别的标记对，将节点分类任务转化为链接预测。其他方法还有GraphPrompt、GraphPrompt+、ProNoG等。

总结

基于图神经网络的模型能有效处理图结构数据、训练成本低、资源利用率高，通过图中标签信息的传播，在标注数据稀缺时仍保持较强泛化能力。针对异质图（CPT-HG）、超图（PhyGCN）、时序图（GraphST）等复杂图数据也有相应研究。

但这类模型文本建模能力薄弱，难以充分挖掘节点/边关联文本属性的丰富语义信息，且通用知识整合能力受限，在需要跨域泛化或常识推理的任务中表现受限。

类别二：LLM-BASED MODELS

将LLM作为主干有以下显著优势：在图数据中有效融合文本信息；利用自然语言处理多种图学习任务；实现图推理。遇到的核心问题在于如何实现图数据与自然语言的对齐，以使LLM能够理解图结构。

A. 主干结构

由于LLM最初以词元（token）作为输入，要实现图结构信息的细粒度建模较难，主要含图到词元和图到文本两种方法，其区别在于是否使用额外编码器（图到词元方法需要借助编码器为每个节点生成嵌入级表示）。

图到词元（graph-to-token）：

将图数据序列化为词元，并解决图结构信息的编码问题，一般使用开源大语言模型作为主干模型。

GIMLET：结合广义位置嵌入和基于指令的预训练，使大语言模型能同时处理图与文本数据。
Meta-Transformer：提出了支持图数据、文本和图像等多模态数据的Transformer架构。
InstructGLM：采用预训练-适应框架，引入大语言模型增强文本处理能力。将图中固有的节点特征向量作为独特词元扩展至大语言模型的词表。

图到文本（graph-to-text）：

采用自然语言描述图信息，可使用任何大语言模型作为主干。但当前阶段的提示词使用方法难以有效挖掘图数据的底层结构特征。

NLGraph：系统评估了大语言模型在八种图推理任务中的表现，并测试了自然语言形式下的经典图神经网络任务。基于边列表描述方法，印证了该方式在处理复杂图问题时的局限性。
TextForGraph：设计了完整文本与精简文本两种提示词格式描述图信息，压缩了提示长度。
When&Why：使用多风格提示词设计提供了结构化数据处理方法。
GraphWiz：针对环路检测、子图匹配等不同图任务定制了专属提示词方案。
GPT4Graph：创新性地提出混合提示工程方法，将人工构建提示词（边列表、邻接表等）与模型自生成提示词（图摘要、邻域汇总等）相结合。研究证实，自生成提示能更有效帮助大语言模型理解图结构。
Graph-LLM：进一步支持GPT4Graph的结论，指出邻域汇总是现有提示词工程中最有效的技术。

B. 预训练

基于大语言模型的图学习方法主要采用LM与MLM。

语言建模（LM）：

本质上可归结为对下一个词概率分布的预测问题，通过在大规模语料上采用最大似然估计（MLE）训练网络，可有效学习这些概率。然而单向语言模型的缺陷在于上下文信息仅依赖于左侧上文及词元本身，若要获得更具鲁棒性的文本上下文表征，则需要同时捕获前向与后向的上下文信息。

掩码语言建模（MLM）：

随机遮蔽输入句子中的特定词元，要求模型通过分析上下文预测被遮蔽内容，该任务常被称作完形填空任务。MLM存在预训练-微调阶段割裂的问题——由于微调阶段不出现掩码标记，导致两阶段目标不一致。

C. 适应

无论是图到词元还是图到文本方法，都配备了特定的适应技术以增强大语言模型对图数据的理解能力。从提示词工程的角度将这些适应策略分为两类：人工型与自动型。

人工提示型：

采用人工设计的前缀式提示模板。

LLMtoGraph、NLGraph：整合节点列表、边列表及其他自然语言描述的图属性，构建复合型提示模板。
GPT4Graph：采用边列表、邻接表等多种描述语言表示图数据。
InstructGLM：创新性地采用指令式提示设计以中心节点为核心的图描述集，并结合任务专属描述。

自动提示型：

采用大语言模型自动生成的提示模板进行适应性优化。

GPT4Graph：采用图摘要（提取关键特征或目标节点邻域信息生成图结构概要）、图探索（自动生成查询序列以检索图信息）和图补全（构建部分图结构后引导模型完成缺失部分）这三种自生成提示。
Graph-LLM：采用邻域摘要形式的自动提示。

D.讨论

除提示工程外，还存在多种基于微调的适应方法，包括常规微调（Vanilla Fine-Tuning）、中间层微调（IFT）、多任务微调（MTFT）以及参数高效微调（Parameter Efficient Fine-Tuning）。尽管这些方法尚未应用于图任务，但它们为预训练模型的下游适配提供了有效途径。我们预期未来研究将探索这些适应方法与图任务的结合，进一步推动图基础模型的发展。
当前将LLM作为图学习主干的方法存在固有局限：1）难以有效处理描述图结构所需的长文本信息；2）无法通过图链接实现多跳逻辑推理；3）对高连通图的拓扑结构捕捉能力不足；4）难以适应随时间演化的动态图特性。
图到文本方法受限于LLM的输入长度，而图到词元方法虽能通过单节点单词元映射处理大规模图数据，却需承担更高计算成本。
未来研究方向应包括：1）增强LLM对节点特征与拓扑结构等图关键信息的理解效率；2）开发结构化图建模技术，弥补自然语言描述与图数据完整信息间的语义鸿沟；3）拓展应用场景，如LLM4DYG已探索时态图应用，但超图和异构图等复杂图类型仍有待开发。

类别三：GNN+LLM-BASED MODELS

GNN缺乏文本处理能力，LLM无法执行精确数学运算、难以处理多跳逻辑推理，将两者进行整合有望开发出更全面、更强大的模型。

A. 主干结构

以图神经网络为核心的方法：

利用LLM从原始数据中提取节点特征，并通过GNN进行预测。

GraD：使用PEFT在TAG数据集上微调，移除头部层后获得微调后的节点表征，继而训练GNN。
TAPE：针对ChatGPT等无法直接获取嵌入的LLM，通过文本交互生成排序预测列表与解释，再微调语言模型将原始文本与LLM生成的预测特征转化为节点特征供下游GNN使用。
GIANT：采用图结构感知的自监督学习方法微调语言模型，使文本表征包含图结构信息。
WTGIA：专注于文本级图注入攻击，提升攻击的可解释性与实际应用性。
GALM： 研究文本与图数据的联合预训练方法，特别针对富含文本的大规模异质图。
OFA：提出用自然语言描述节点/边的文本属性图，通过语言模型统一至共同嵌入空间。
Heterformer：在Transformer层中同步编码节点文本与异质结构信息。
Edgeformers： 基于图增强Transformer，通过边关联文本的上下文建模进行边/节点表征学习。
LLMRec： 采用三种LLM图增强技术改进推荐系统，解决隐式反馈稀疏与辅助信息低质问题。
WalkLM：通过属性随机游走生成近似有意义的文本序列，微调语言模型后提取同时捕获属性语义与图结构的嵌入向量。
TOUCHUP-G： 增强预训练模型的节点特征用于下游图任务，但现有多路GNN的节点属性初始化方法难以完整捕获关联文本语义。
METERN：使用单一文本编码器建模关系间共享知识，辅以少量关系特定参数生成定制化表征。
LLM-GNN： 构建无标签流程，利用LLM生成标注并为GNN提供训练信号。

对称式方法：

通过对齐GNN与LLM的嵌入空间以优化预测或下游任务性能，对称式方法通过协同机制获取结构感知的文本特征。

GraphFormer：将文本嵌入与图聚合融合为迭代流程，相连节点会在分层GNN组件中进行信息交换，使各节点融合邻域信息。但该方法存在可扩展性问题。
GLEM：采用变分EM框架交替更新LLM与GNN，LLM捕捉局部文本属性的节点标签分布，GNN预测表征全局条件标签分布，缓解可扩展性问题。
G2P2：基于三种图交互对比策略预训练图-文本联合模型，进而探索下游任务的提示学习。
ENGINE：通过可调节侧边结构整合LLM与GNN，显著降低训练复杂度同时保持模型能力。
PATTON：提出两种预训练策略：网络语境化掩码语言建模与掩码节点预测，以捕获文本属性与网络结构的固有关联。
OpenGraph：开发灵活的基础图模型，通过理解异构图数据的复杂拓扑模式，在零样本图学习任务中表现优异。
RLMRec：通过语义空间对齐与协同关系建模，结合LLM提升推荐系统的表征学习能力。

以LLM为核心的方法：

GraphTranslator：采用图模型高效处理预定义任务，并利用LLM的扩展接口支持图模型的开放式任务。
GraphGPT：通过图指令微调将图结构知识注入LLM，使其理解复杂图结构并提升跨数据集与任务的适应性。
THLM：提出融合文本属性异构图拓扑与异构信息的预训练框架，显式增强语言模型的图感知能力。
GraphPrompter：通过软提示实现图信息与LLM的对齐。
InstructGraph：结合指令微调与偏好对齐，赋予LLM图推理与生成能力。
TEA-GLM：先通过对比学习预训练GNN捕获图结构与语义信息，再经线性投影器将GNN表征转化为统一的任务指令输入LLM，实现无需微调的跨数据集与跨任务泛化。
G-Retriever：提出面向现实文本图的检索增强生成框架，通过对话式接口实现问答功能，有效缓解幻觉问题并支持大规模图的高效扩展。

B. 预训练

GNN加LLM的方法可以同时在文本数据和图数据上进行训练，分为基于GNN或LLM的方法和基于对齐的方法。

SimTeG：融合了文本-文本对比学习（TTCL）技术，利用了预训练阶段某些文本对比随机选取的文本对具有更高语义相似性的特性。
GALM：在大规模图数据集上进行图重构预训练，从而将图结构信息有效整合到预训练语言模型中。

C. 适应

除少数研究在零样本任务上测试模型性能外，大多数情况下模型都需要进行适配。适配策略分为两大类：微调与提示调优。

微调方法：

常规微调需要调整大量模型参数，存在计算密集和资源消耗大的问题。参数高效微调方法则实现了更高效节能的下游任务适配。例如利用分子图-文本配对数据对齐GNN与LLM的嵌入空间，针对TAGs进行分类任务调优，通过生成文本标注或描述来适配下游任务。

提示调优方法：

G2P2：通过提示调优自动优化提示模板，仅需少量标注数据即可高效适配下游任务。
TAPE：充分利用语言模型的内生能力，无需额外微调或参数调整，仅依赖模型预训练知识即可生成文本输出。

D.讨论

将LLM与GNN对齐到统一表征空间仍具挑战性，为解决这一问题，需建立衡量两者表征对齐程度的标准。
现有研究已开始将GNN+LLM方法拓展至异质图与超图领域，如HiGPT提出了情境感知的异质图标记器与异质性感知指令微调框架，GHGRL利用LLM自动归纳和分类异质图数据的多格式多类型数据，Hyper-BERT添加超图感知层来增强预训练BERT模型用于节点分类任务。

挑战与展望

A. 数据与评估面临的挑战

数据评估与质量：

数据规模与质量的提升是基础模型效能提升的关键因素，而当前开源大规模图数据仍较为有限，各数据集多集中于单一领域，且有噪声、不完整或未经妥善处理的数据将影响图基础模型的性能。研究者已从图结构学习、特征补全、标签混合等多角度提出数据增强策略。然而现有数据增强技术多针对单一GNN模型设计，如何面向基于LLM或”GNN+LLM”架构的模型进行有效图数据增强仍需探索。

评估体系：

开放式任务缺乏标准标签，如何评估图基础模型在开放式任务中的性能成为难题。在语言基础模型领域，对开放式任务的评估已从人工评估发展到元评估，现有LLM评估方法是否适用于图基础模型仍有待验证。此外，还需对图基础模型的鲁棒性、可信度及综合性能进行系统评估。

B. 模型相关挑战

模型架构：

在骨干架构方面，近期研究提出的超越Transformer的架构已展现出更优性能或可解释性，但这些架构能否处理图数据仍是未知数。
在GNN+LLM联合模型中，如何更有效地对齐二者输出值得探索。
面对异质图、时序图、超图等多元图结构，设计能处理多类图数据的GFM是重要研究方向，例如使用专家混合模型。
探索如何利用GNN扩展多模态基础模型的模态覆盖范围或增强多模态学习能力是颇具价值的研究方向。

模型训练：

设计合适的预训练任务至关重要，针对不同GFM架构已衍生出多样化的预训练任务形式。各类预训练任务是否存在适用边界、未来是否会出现统一范式都值得深入研究。
如何使图基础模型支持跨域数据仍待研究。现有研究或采用多领域数据作为预训练输入，或通过LLM嵌入、条件生成和零样本迁移等方法实现跨域适应。除本文涉及的微调与提示学习外，知识蒸馏、人类反馈强化学习和模型编辑等技术在提升效率或更新知识方面具有潜力。

C.应用层面挑战

杀手级应用：

图基础模型能否在图任务中催生突破性应用尚未可知，对于适合图神经网络应用的场景潜在研究方向包括：结合LLMs的图模型以更好支持开放式任务，或通过图学习技术增强LLMs的推理能力。
传统交通预测技术多集中于出行需求预测和交通流量预测等单一任务，缺乏对交通系统的整体认知。将交通系统视为时空图时，图基础模型可捕捉参与者的行为模式，从而为城市计算问题提供统一解决方案。

可信度问题：

LLM的黑箱特性引发了幻觉输出和隐私泄露等安全隐患，近期工作指出，预训练GNNs同样存在公平性和抗攻击鲁棒性方面的可信风险。鉴于图数据的特殊性，需采用置信度校准或反事实推理等技术防范GFMs的安全风险。此外，GNN和LLM均存在的隐私风险使得GFMs的隐私增强成为关键议题，联邦学习、RLHF和红队测试等方案的应用可行性尚待验证。
现实场景中的图数据常面临噪声、类别不平衡、数据残缺和多模态特征等挑战，如何利用非常规图数据构建GFMs或适配现有模型，将成为未来研究的重点方向。