Large Language Models-guided Dynamic Adaptation for Temporal Knowledge Graph Reasoning
Large Language Models-guided Dynamic Adaptation for Temporal Knowledge Graph Reasoning
neurips 2024
该论文提出了一种基于大型语言模型(LLMs)引导的动态适应方法(LLM-DA),旨在解决时间知识图谱推理(TKGR)中传统方法可解释性差、难适应知识动态变化的问题,且无需对LLMs进行微调即可提升推理准确性。
一、研究背景与问题
现有TKGR方法主要分为两类,但均存在明显缺陷:
- 深度学习类方法(如RE-NET、RE-GCN):依赖图神经网络等模型捕捉时间模式,却因“黑箱”特性缺乏可解释性,且难以动态更新以适配TKG新增知识。
- 规则类方法(如TLogic):通过时间逻辑规则推理,虽可解释性强,但难以高效学习和更新能精准捕捉时间模式的规则。
同时,LLMs虽具备强大的时间推理能力和知识储备,但应用于TKGR时存在两大问题:一是自身推理过程不可解释,易产生“幻觉”降低结果可信度;二是微调需大量资源,无法及时整合TKG中不断演化的知识。
二、核心方法:LLM-DA框架
LLM-DA通过四个关键阶段实现高效、可解释且动态适配的TKGR,整体框架如图2所示。
1. 时间逻辑规则采样(Temporal Logical Rules Sampling)
- 核心目标:从历史数据中提取初始时间逻辑规则,为后续规则生成提供基础。
- 关键技术:采用约束马尔可夫随机游走,相比传统随机游走增加两个约束:
- 时间顺序约束:仅选择时间戳早于当前边的候选边,确保规则的时间合理性。
- 时间间隔约束:通过指数衰减函数((w(t)=\exp(-\lambda(t-T))))对候选边加权,时间越近的边权重越高,使采样更聚焦近期重要关系。
- 过滤操作:引入过滤算子(\chi(t)),仅保留时间戳满足(t<t_l)((t_l)为当前边时间戳)的候选路径,提升采样效率。
2. 规则生成(Rule Generation)
- 核心目标:利用LLMs生成高覆盖率、高质量的通用规则,解决初始采样规则覆盖不足的问题。
- 关键步骤:
- 上下文关系筛选:通过Sentence-Bert将规则头关系与候选关系嵌入到同一空间,计算余弦相似度后选择Top-k语义最相关的关系(如规则头为“president_of”时,筛选“occupation_of”“politician_of”等),减少LLMs输入冗余。
- LLMs引导规则生成:将筛选后的Top-k关系与初始采样规则输入LLMs(如ChatGPT-3.5),通过特定提示(Prompt)生成通用规则集(S_g),示例提示见附录A.1。
3. 动态适应(Dynamic Adaptation)
- 核心目标:更新LLMs生成的规则以适配TKG的动态演化,避免规则因知识更新失效。
- 关键步骤:
- 低质量规则识别:通过“置信度”指标((c_\rho=\frac{\text{满足规则体的事实对数量}}{\text{满足完整规则的事实对数量}}))筛选置信度低于阈值(\theta)的规则集(S_{g(\text{low})})。
- 基于当前数据更新规则:对当前数据执行约束马尔可夫随机游走提取新规则,以这些新规则为标准,通过LLMs迭代更新低质量规则,最终得到适配最新知识的规则集(S_d),示例提示见附录A.2。
4. 候选推理(Candidate Reasoning)
- 核心目标:结合规则推理与图推理,生成最终候选答案,平衡可解释性与推理完整性。
- 双模块融合:
- 规则推理:筛选置信度高于阈值(\gamma)的规则集(S_d’),基于规则推导候选实体,并结合时间衰减函数计算候选得分((Score_{(\rho,e_o’)})),体现时间因素对规则有效性的影响。
- 图推理:引入图神经网络(如RE-GCN、TiRGN)作为图推理函数(f_g(\text{Query})),通过内积计算候选得分((Score_{(\text{graph},e_o’)})),弥补纯规则推理覆盖不全的问题。
- 得分融合:通过权重(\alpha)融合两类得分((Score_f=\alpha\cdot Score_{(\rho,e_o’)}+(1-\alpha)\cdot Score_{(\text{graph},e_o’)})),其中ICEWS14数据集(\alpha=0.9),ICEWS05-15数据集(\alpha=0.8),突出规则推理的主导作用。
三、实验验证
1. 实验设置
- 数据集:采用ICEWS系列时间知识图谱(ICEWS14、ICEWS05-15、ICEWS18),涵盖国际政治事件与社会动态,数据分为历史数据(训练集)、当前数据(验证集)、未来数据(测试集)。
- 基线方法:
- 传统TKGR方法:RE-NET、RE-GCN、TiRGN、TLogic。
- LLMs-based TKGR方法:GPT-NeoX、Llama-2-7b-CoH、Vicuna-7b-CoH、Mixtral-8x7B-CoH、PPT。
- 评价指标:Mean Reciprocal Rank(MRR)、Hit@1/3/10,均采用“过滤后”结果(排除TKG中已存在的错误四元组)。
- 参数设置:衰减率(\lambda=0.1),低质量规则阈值(\theta=0.01),高置信规则阈值(\gamma=0.01),动态适应迭代次数=5,使用NVIDIA RTX 3090 GPU运行。
2. 核心实验结果
- 性能超越基线:在所有数据集上,LLM-DA(以TiRGN为图推理模块)均优于所有基线。例如在ICEWS14中,MRR达0.471,较Mixtral-8x7B-CoH(0.439)提升7.3%;在ICEWS05-15中,Hit@10达0.728,较TiRGN(0.703)提升3.5%,证明动态适应策略有效。
- 动态适应的必要性:消融实验显示(表2),仅用历史数据(LLM-DA w H)或当前数据(LLM-DA w C)的性能均低于融合动态适应的LLM-DA,且迭代次数越多(图5),MRR越高,说明迭代更新规则能持续适配TKG变化。
- 时间分布适配能力:时间间隔分段预测实验(图4)显示,LLM-DA在各时间间隔的MRR均高于RE-GCN和TiRGN,证明其能应对TKG的时间分布偏移问题。
四、研究贡献与局限性
1. 主要贡献
- 首次将LLMs用于规则类TKGR:通过LLMs提取时间逻辑规则,兼顾LLMs的知识优势与规则推理的可解释性。
- 提出动态适应策略:无需微调LLMs,仅通过迭代更新规则即可适配TKG动态演化,降低资源消耗。
- 引入上下文关系筛选:通过语义相似度筛选关键关系,减少LLMs输入冗余,提升规则生成质量。
2. 局限性
- 未考虑节点语义:采样规则时仅关注关系,可能降低规则质量。
- 规则缺乏查询针对性:生成的通用规则无法适配特定查询需求。
- 依赖人工提示:不同数据集需重新设计提示,成本较高,未来需探索自动化提示学习。
五、交付物提议
要不要我帮你整理一份LLM-DA方法核心步骤与实验结果对比表?表格会清晰呈现各阶段关键操作、核心参数,以及LLM-DA与主流基线在三大数据集上的MRR、Hit@1/3/10指标对比,方便快速掌握方法亮点与性能优势。