The Role of Exploration Modules in Small Language Models for Knowledge Graph Question Answering
小型语言模型在知识图谱问答中探索模块的作用(arxiv2509.07399)
ACL2025
一、研究背景与问题提出
1. 核心背景
- LLM与知识图谱结合的现状:将知识图谱(KG)融入大型语言模型(LLM)推理过程,已成为缓解模型幻觉的有效方向。例如Think-on-Graph(ToG)框架将LLM视为与知识图谱动态交互的智能体,通过检索外部知识提升推理可靠性,形成“LLM×KG”范式。
- 现有方案的局限性:当前相关研究多依赖专有或超大规模模型(如GPT-4.1、Gemini),导致可访问性低、扩展性差;部分改进方案(如额外推理模块)需任务特定训练,难以适配低资源场景。
- SLM的实际需求:在终端用户或系统部署中,常仅能获取中小型语言模型(SLM,参数规模0.5B-8B)用于推理,而SLM在利用知识图谱进行问答时性能受限,成为亟待解决的实际问题。
2. 关键问题
- 现有ToG框架对SLM的适配性如何?
- SLM在知识图谱问答(KGQA)中性能不佳的核心瓶颈是什么?
- 如何通过轻量型模块改进SLM的知识图谱探索与推理能力?
二、核心理论与方法
1. 基础框架:Think-on-Graph(ToG)
ToG是面向KGQA的无训练框架,通过三阶段让语言模型实现多跳推理,具体流程如下: | 阶段 | 核心任务 | 实现逻辑 | |——|———-|———-| | 初始化(Initialization) | 提取主题实体并定位 | 从输入问题中识别关键实体(如“Northern District”),在知识图谱中匹配对应节点,构建初始推理路径 | | 探索(Exploration) | 迭代扩展推理路径 | 基于束搜索(beam search),让模型探索相邻关系与实体,结合问题上下文对候选路径排序并剪枝 | | 推理(Reasoning) | 生成最终答案 | 收集足够证据后,利用维护的推理路径生成答案,兼顾可解释性与上下文敏感性 |
2. SLM的探索模块改进方案
针对SLM在“探索阶段”的能力不足,论文提出用轻量型 passage 检索模型替代SLM自身完成探索任务,核心思路是“解耦探索与推理”,具体采用三类检索模型: - BM25:基于关键词的传统检索模型,通过词频(TF)和逆文档频率(IDF)计算问题与候选 passage 的相关性,无需训练,适用于简单匹配场景。 - SentenceBERT:BERT 衍生模型,经微调生成语义级句子嵌入,通过向量相似度(点积)衡量相关性,参数约1.1亿,远小于最小SLM(0.5B)。 - GTR:T5 衍生模型,针对 passage 检索优化,同样通过嵌入向量计算相似度,参数规模与 SentenceBERT 相当,检索精度更优。
上述模型均采用“零样本即插即用”模式,无需额外训练,完美适配低资源场景。
三、实验设计与关键结果
1. 实验 setup
- 知识图谱与数据集:基于Freebase知识图谱,在两个KGQA基准数据集上测试:
- ComplexWebQuestions(CWQ):含复杂多跳问题(最多4跳),侧重深度推理能力。
- WebQSP:以1-2跳问题为主,侧重基础检索与匹配能力。
- 评价指标:采用精确匹配(EM)分数,衡量预测答案与标准答案的完全一致性。
- 模型选择:
- LLM对照组:GPT-4.1(2025年4月快照)。
- SLM实验组:Qwen2-0.5b、Gemma2-2b、Phi-3-mini-3.8b、Qwen2-7b、Llama-3-8b(参数0.5B-8B)。
2. 核心实验结果与分析
(1)RQ1:ToG对SLM与LLM的适配性对比(表1)
- LLM表现:GPT-4.1在ToG框架下性能显著提升,CWQ从0.457(CoT)升至0.540(ToG),WebQSP从0.710(CoT)升至0.813(ToG),验证ToG对LLM的有效性。
- SLM表现:SLM采用ToG后性能无稳定提升,部分模型甚至低于CoT基线。例如Qwen2-0.5b的CWQ分数从0.129(CoT)降至0.081(ToG),平均SLM的CWQ分数从0.219(CoT)降至0.217(ToG),表明ToG框架无法直接适配SLM。
(2)RQ2:SLM性能瓶颈定位——探索阶段缺陷(表2、表3)
- 案例验证:以问题“What type of government is used in the country with Northern District?”为例,SLM自身仅检索到(“Northern District”,“country”,“Israel”)等基础三元组,无法回答政府类型;而使用GPT-4.1检索的三元组(含“Israel”→“Parliamentary system”)时,SLM可生成正确答案,证明SLM推理能力无缺陷,核心瓶颈是探索阶段无法获取关键知识。
- 定量验证:让GPT-4.1辅助SLM完成探索后,所有SLM性能显著提升。例如Llama-3-8b的CWQ分数从0.291(CoT)升至0.451(GPT-4.1 ToG),WebQSP从0.603升至0.772,平均提升0.159(CWQ)和0.238(WebQSP),进一步确认“探索阶段”是核心瓶颈。
(3)RQ3:轻量检索模块对SLM的改进效果(表4)
- 整体趋势:SentenceBERT和GTR可显著提升SLM的KGQA性能,且优于BM25和原始ToG。例如:
- Qwen2-7b的CWQ分数从0.300(ToG)升至0.331(GTR),WebQSP从0.637升至0.671。
- Phi-3-mini-3.8b的WebQSP分数从0.520(ToG)升至0.605(GTR)。
- 关键发现:轻量检索模块对SLM的增益,与对LLM的影响形成对比——Sun等人(2024)发现检索模块会导致LLM性能下降,而本研究中SLM性能提升,核心原因是SLM自身探索能力弱,轻量模块可弥补缺陷,而LLM自身探索能力强,外部模块反而干扰决策。
四、研究结论与局限
1. 核心结论
- ToG框架的适配性:现有ToG框架对SLM无效,仅能提升LLM性能。
- SLM的核心瓶颈:知识图谱“探索阶段”的路径检索与剪枝能力不足,导致无法获取关键推理证据。
- 有效改进方案:引入轻量型 passage 检索模型(如SentenceBERT、GTR)替代SLM完成探索,可在无额外训练的情况下,显著提升SLM的KGQA性能,兼顾效率与精度。
2. 研究局限
- 实验设计:受计算资源限制,仅进行单次实验(未使用多随机种子),无法量化结果方差,但跨模型的一致趋势仍能支撑结论。
- 模块通用性:未测试更多轻量检索模型,且仅针对Freebase和两个数据集,需进一步验证在其他知识图谱与任务中的适配性。
五、研究意义与延伸
1. 理论意义
- 首次系统分析SLM在KGQA中的瓶颈,明确“探索阶段”的关键作用,补充“LLM×KG”范式在低资源场景的研究空白。
- 验证“解耦探索与推理”思路的有效性,为小型模型与知识图谱的结合提供新方向。
2. 实践意义
- 为终端部署、低资源场景提供可行方案:无需依赖大型模型,通过轻量模块即可让SLM高效利用知识图谱,降低幻觉风险。
- 开源代码(https://github.com/yijie-cheng/SLM-ToG/)为后续研究提供基础工具。