THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASONING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH

发表于 2025-10-15 分类于论文阅读，大模型， KGQA 本文字数： 2.5k 阅读时长 ≈ 5 分钟

THINK-ON-GRAPH

该论文提出了“LLM⊗KG”紧密耦合范式及“Think-on-Graph（ToG）”实现方法，有效解决了大语言模型（LLMs）在深度推理中的幻觉问题，同时兼具知识可追溯性与部署灵活性，在9个数据集的6个中实现了SOTA性能。

ICLR2024

一、研究背景与核心问题

当前LLMs虽在自然语言处理任务中表现出色，但在知识密集型深度推理场景中存在显著局限，主要体现在三方面： 1. 知识局限性：无法处理预训练数据之外的专业知识或过时信息，难以完成多跳逻辑链推理任务。 2. 责任与可解释性缺失：推理过程不透明，易产生幻觉内容或有毒文本，无法追溯答案来源。 3. 更新与部署成本高：LLMs训练过程耗时且昂贵，知识更新效率低，大模型部署成本高。

现有“LLM⊕KG”范式（将KG信息检索后增强提示）存在松散耦合缺陷，LLM仅负责将问题转换为KG查询指令，不直接参与图推理，且依赖KG的完整性，若KG缺少关键关系（如“majority party”），推理会失败。

二、核心创新：LLM⊗KG范式与ToG方法

1. LLM⊗KG范式

该范式实现LLMs与知识图谱（KG）的紧密协作，LLM作为智能体（agent）深度参与KG推理的每一步： - 动态探索KG中的实体与关系，弥补KG缺失的信息（如用“澳大利亚总理”关系替代缺失的“多数党”关系）。 - 结合LLM自身知识与KG检索知识生成答案，解决“LLM⊕KG”范式的依赖缺陷。

2. Think-on-Graph（ToG）实现框架

ToG基于“LLM⊗KG”范式，通过波束搜索（beam search） 让LLM迭代探索KG推理路径，核心流程分三阶段： - 初始化阶段：LLM提取问题中的主题实体，确定初始推理路径的起点（如从问题“堪培拉所在国家的多数党”中提取初始实体“堪培拉”）。 - 探索阶段：分“关系探索”与“实体探索”两步，均包含“搜索-剪枝”过程： 1. 关系探索：从当前实体的相邻关系中，LLM筛选出与问题最相关的Top-N关系（如从“堪培拉”的所有关系中选“capital of”“country”等）。 2. 实体探索：基于筛选后的关系，检索相邻实体并再次由LLM剪枝，扩展推理路径（如从“capital of”关系检索到实体“澳大利亚”）。 - 推理阶段：LLM评估当前Top-N推理路径是否足够回答问题，若足够则生成答案；若不足则重复探索阶段，直至达到最大搜索深度（默认3）或获取足够信息。

3. 变体ToG-R（Relation-based ToG）

为降低成本，ToG-R仅探索关系链而非完整三元组路径，实体剪枝采用随机筛选替代LLM评估，优势如下： - 减少LLM调用次数，降低推理时间与成本（LLM调用量从ToG的“2ND+D+1”降至“ND+D+1”）。 - 聚焦关系文本信息，避免中间实体信息缺失对LLM推理的误导。

三、实验验证与关键结果

1. 实验设计

数据集：覆盖9类任务，包括5个KBQA数据集（CWQ、WebQSP等）、1个开放域QA数据集（WebQuestions）、2个槽位填充数据集（T-REx、Zero-Shot RE）、1个事实核查数据集（Creak）。
对比方法：标准提示（IO）、思维链提示（CoT）、自一致性（Self-Consistency），以及各数据集的现有SOTA方法（含微调与提示类）。
评估指标：精确匹配准确率（Hits@1）。

2. 核心实验结果

SOTA性能：ToG（基于GPT-4）在9个数据集的6个中实现SOTA，包括WebQSP、GrailQA、Zero-Shot RE等；在CWQ数据集上性能接近SOTA（69.5% vs 70.4%）。
深度推理优势：在多跳推理任务上提升显著，如GrailQA数据集较CoT提升51.8%，Zero-Shot RE提升42.9%；单跳任务性能略低，验证其更适用于深度推理。
模型灵活性：支持不同LLM（ChatGPT、GPT-4、Llama2-70B）与KG（Freebase、Wikidata）的即插即用，无需额外训练。
成本优势：小模型（如Llama2-70B）结合ToG后，性能可超过未结合ToG的大模型（如GPT-4），降低部署成本。

3. 消融实验关键发现

搜索深度与宽度：性能随深度（1-3）和宽度（1-3）增加而提升，深度超过3后增长放缓（多数问题推理链长度≤3），默认设为3以平衡性能与成本。
KG来源影响：Freebase在基于其构建的数据集（CWQ、WebQSP）上效果优于Wikidata，因Wikidata规模大，检索与剪枝难度更高。
剪枝工具对比：LLM作为剪枝工具的性能最优，若用BM25或Sentence-BERT替代，CWQ性能平均下降8.4%，WebQSP下降15.1%，但可减少LLM调用量。

四、核心优势与价值

深度推理能力：多跳推理路径为LLM提供结构化依据，提升知识密集型任务的推理准确性。
知识可追溯与可修正：显式的推理路径可追溯答案来源，若发现错误（如KG中“体育场旧名”错误），可定位并修正KG中的可疑三元组，反向优化KG质量。
灵活性与效率：
- 即插即用：适配不同LLM、KG与提示策略，无需额外训练。
- 低成本更新：通过KG更新知识，替代昂贵的LLM重训练。
- 小模型赋能：小LLM结合ToG可匹敌大LLM，降低部署成本。
通用性：在KBQA、开放域QA、事实核查等多类任务中均表现优异，验证跨场景适用性。

五、结论与局限

1. 结论

ToG作为无训练成本、低计算开销的方法，通过“LLM⊗KG”范式解决了LLMs的幻觉问题与推理局限性，在多类任务中超越现有微调与提示类SOTA，为LLM深度推理提供了高效解决方案。

2. 局限

依赖KG的准确性，若KG包含错误信息（如“费城 Phillies 体育场旧名”），ToG会生成错误答案，需结合人工或LLM修正KG。
推理深度与宽度增加会提升性能，但也会增加LLM调用成本，需进一步优化效率。