THINK-ON-GRAPH: DEEP AND RESPONSIBLE REASONING OF LARGE LANGUAGE MODEL ON KNOWLEDGE GRAPH

THINK-ON-GRAPH

该论文提出了“LLM⊗KG”紧密耦合范式及“Think-on-Graph(ToG)”实现方法,有效解决了大语言模型(LLMs)在深度推理中的幻觉问题,同时兼具知识可追溯性与部署灵活性,在9个数据集的6个中实现了SOTA性能。

ICLR2024

一、研究背景与核心问题

当前LLMs虽在自然语言处理任务中表现出色,但在知识密集型深度推理场景中存在显著局限,主要体现在三方面: 1. 知识局限性:无法处理预训练数据之外的专业知识或过时信息,难以完成多跳逻辑链推理任务。 2. 责任与可解释性缺失:推理过程不透明,易产生幻觉内容或有毒文本,无法追溯答案来源。 3. 更新与部署成本高:LLMs训练过程耗时且昂贵,知识更新效率低,大模型部署成本高。

现有“LLM⊕KG”范式(将KG信息检索后增强提示)存在松散耦合缺陷,LLM仅负责将问题转换为KG查询指令,不直接参与图推理,且依赖KG的完整性,若KG缺少关键关系(如“majority party”),推理会失败。

二、核心创新:LLM⊗KG范式与ToG方法

1. LLM⊗KG范式

该范式实现LLMs与知识图谱(KG)的紧密协作,LLM作为智能体(agent)深度参与KG推理的每一步: - 动态探索KG中的实体与关系,弥补KG缺失的信息(如用“澳大利亚总理”关系替代缺失的“多数党”关系)。 - 结合LLM自身知识与KG检索知识生成答案,解决“LLM⊕KG”范式的依赖缺陷。

2. Think-on-Graph(ToG)实现框架

ToG基于“LLM⊗KG”范式,通过波束搜索(beam search) 让LLM迭代探索KG推理路径,核心流程分三阶段: - 初始化阶段:LLM提取问题中的主题实体,确定初始推理路径的起点(如从问题“堪培拉所在国家的多数党”中提取初始实体“堪培拉”)。 - 探索阶段:分“关系探索”与“实体探索”两步,均包含“搜索-剪枝”过程: 1. 关系探索:从当前实体的相邻关系中,LLM筛选出与问题最相关的Top-N关系(如从“堪培拉”的所有关系中选“capital of”“country”等)。 2. 实体探索:基于筛选后的关系,检索相邻实体并再次由LLM剪枝,扩展推理路径(如从“capital of”关系检索到实体“澳大利亚”)。 - 推理阶段:LLM评估当前Top-N推理路径是否足够回答问题,若足够则生成答案;若不足则重复探索阶段,直至达到最大搜索深度(默认3)或获取足够信息。

3. 变体ToG-R(Relation-based ToG)

为降低成本,ToG-R仅探索关系链而非完整三元组路径,实体剪枝采用随机筛选替代LLM评估,优势如下: - 减少LLM调用次数,降低推理时间与成本(LLM调用量从ToG的“2ND+D+1”降至“ND+D+1”)。 - 聚焦关系文本信息,避免中间实体信息缺失对LLM推理的误导。

三、实验验证与关键结果

1. 实验设计

  • 数据集:覆盖9类任务,包括5个KBQA数据集(CWQ、WebQSP等)、1个开放域QA数据集(WebQuestions)、2个槽位填充数据集(T-REx、Zero-Shot RE)、1个事实核查数据集(Creak)。
  • 对比方法:标准提示(IO)、思维链提示(CoT)、自一致性(Self-Consistency),以及各数据集的现有SOTA方法(含微调与提示类)。
  • 评估指标:精确匹配准确率(Hits@1)。

2. 核心实验结果

  • SOTA性能:ToG(基于GPT-4)在9个数据集的6个中实现SOTA,包括WebQSP、GrailQA、Zero-Shot RE等;在CWQ数据集上性能接近SOTA(69.5% vs 70.4%)。
  • 深度推理优势:在多跳推理任务上提升显著,如GrailQA数据集较CoT提升51.8%,Zero-Shot RE提升42.9%;单跳任务性能略低,验证其更适用于深度推理。
  • 模型灵活性:支持不同LLM(ChatGPT、GPT-4、Llama2-70B)与KG(Freebase、Wikidata)的即插即用,无需额外训练。
  • 成本优势:小模型(如Llama2-70B)结合ToG后,性能可超过未结合ToG的大模型(如GPT-4),降低部署成本。

3. 消融实验关键发现

  • 搜索深度与宽度:性能随深度(1-3)和宽度(1-3)增加而提升,深度超过3后增长放缓(多数问题推理链长度≤3),默认设为3以平衡性能与成本。
  • KG来源影响:Freebase在基于其构建的数据集(CWQ、WebQSP)上效果优于Wikidata,因Wikidata规模大,检索与剪枝难度更高。
  • 剪枝工具对比:LLM作为剪枝工具的性能最优,若用BM25或Sentence-BERT替代,CWQ性能平均下降8.4%,WebQSP下降15.1%,但可减少LLM调用量。

四、核心优势与价值

  1. 深度推理能力:多跳推理路径为LLM提供结构化依据,提升知识密集型任务的推理准确性。
  2. 知识可追溯与可修正:显式的推理路径可追溯答案来源,若发现错误(如KG中“体育场旧名”错误),可定位并修正KG中的可疑三元组,反向优化KG质量。
  3. 灵活性与效率
    • 即插即用:适配不同LLM、KG与提示策略,无需额外训练。
    • 低成本更新:通过KG更新知识,替代昂贵的LLM重训练。
    • 小模型赋能:小LLM结合ToG可匹敌大LLM,降低部署成本。
  4. 通用性:在KBQA、开放域QA、事实核查等多类任务中均表现优异,验证跨场景适用性。

五、结论与局限

1. 结论

ToG作为无训练成本、低计算开销的方法,通过“LLM⊗KG”范式解决了LLMs的幻觉问题与推理局限性,在多类任务中超越现有微调与提示类SOTA,为LLM深度推理提供了高效解决方案。

2. 局限

  • 依赖KG的准确性,若KG包含错误信息(如“费城 Phillies 体育场旧名”),ToG会生成错误答案,需结合人工或LLM修正KG。
  • 推理深度与宽度增加会提升性能,但也会增加LLM调用成本,需进一步优化效率。