MOTIVEBENCH: How Far Are We From Human-Like Motivational Reasoning in Large Language Models?

MOTIVEBENCH: How Far Are We From Human-Like Motivational Reasoning in Large Language Models?

论文概览

本文假设现有大型语言模型(LLMs)在类人动机推理方面存在不足,且现有评估基准因场景简化、信息明确、缺乏理论支撑难以有效衡量该能力;通过构建基于马斯洛需求层次理论和Reiss动机模型的MOTIVEBENCH基准(含200个真实场景、600个推理任务),采用AI-人类协作框架保证数据质量,并对29个主流LLM开展大规模实验(对比Base/CoT提示策略);结果显示即使最先进的GPT-4o准确率仅80.89%,在“爱与归属感”需求推理上表现薄弱,CoT策略反而可能降低性能,LLM存在过度理性、理想主义等推理偏差;结论表明MOTIVEBENCH为LLM类人化研究提供了全新评估维度,揭示的LLM动机推理局限为后续模型优化指明了方向。

核心问题

现有LLMs虽广泛应用于社交模拟、AI伴侣等代理框架,但能否真正理解和展现人类复杂的动机与行为仍未得到充分探索;现有评估基准(如SOCIALIQA)存在场景简化、信息过于明确、缺乏系统理论支撑的缺陷,导致无法精准衡量LLMs的类人动机推理能力,亟需一个贴近真实世界、覆盖多维度需求的专用基准。

主要贡献

  1. 提出首个聚焦LLM类人动机-行为推理的综合评估基准MOTIVEBENCH,涵盖马斯洛需求层次(5级)和Reiss 16种基础动机,兼顾虚拟角色与真实场景(购物、博客),填补现有评估空白。
  2. 设计“AI多智能体协作+人工校正”的问题生成框架,高效产出高质量、多难度的推理任务,避免数据泄露与偏差,保证基准的可靠性与多样性。
  3. 通过对7个模型家族29个LLM的大规模实验,揭示关键规律:模型规模与动机推理能力正相关,CoT在该任务中可能引发过度思考,LLM在“爱与归属感”等情感相关需求上存在显著短板。
  4. 深入分析LLM与人类动机推理的核心差异(过度理性、理想主义等4类错误模式),为LLM类人化优化(如情感推理增强、场景适配)提供具体洞察。

研究方法

  1. 数据来源:从Persona-Hub(虚拟角色)、Amazon产品评论(真实消费动机)、Blogger博客(日常行为场景)收集多样化数据,覆盖不同需求层次与场景类型。
  2. 基准构建:基于马斯洛需求层次理论(生理、安全、爱与归属、尊重、自我实现)和Reiss动机模型(16种基础欲望),设计三种推理任务(动机推理、行为推理、动机-行为联合推理),确保评估的全面性。
  3. 问题生成流程:采用“提问者-评审者-修改者”多智能体框架生成初始问题,经逻辑一致性、答案正确性、难度适配性评审后迭代修改,最终通过人工校正(每题约6分钟)和人类标注(15名不同背景标注者,一致性98.17%)验证质量。
  4. 实验设计:设置Base(基础提示)和CoT(思维链)两种提示策略,对每个问题生成6种选项排列以消除顺序偏差;评估指标为场景内三题全对的准确率,对比不同模型家族、规模、提示策略的性能差异。
  5. 分析方法:通过人类标注验证基准有效性,对LLM错误案例进行分类编码,提炼推理偏差模式,计算与现有通用基准(LiveBench)的相关性以验证评估维度的独特性。

各章节详解

1. 引言(Introduction)

  • 核心内容:明确动机的定义——影响个体发起、维持目标导向行为的内在驱动力(分为内在动机和外在动机),强调其在理解人类行为中的关键作用。
  • 现有局限:传统基准(如SOCIALIQA)场景简单、信息明确,无需复杂推理即可得出答案,且缺乏理论支撑,与真实世界情境存在信息不对称;现有LLM研究多聚焦特定行为模拟(如信任游戏),未全面评估动机推理能力。
  • 研究目标:针对LLM在代理框架中的广泛应用与动机推理评估缺失的矛盾,提出MOTIVEBENCH基准,填补类人动机推理评估的空白,为LLM类人化研究提供支撑。

2. MOTIVEBENCH预备知识(Preliminaries)

2.1 三种推理任务

  • 动机推理任务(Motivational Reasoning Question):给定场景、角色和行为,推断背后的动机。
  • 行为推理任务(Behavioral Reasoning Question):给定场景、角色和动机,推断最可能的行为。
  • 动机-行为联合推理任务(Motive&Behavior Reasoning Question):仅给定场景和角色,同时推断合理动机与对应行为(难度最高,贴近自主代理的实际需求)。

2.2 细粒度需求层次

  • 融合两种经典动机理论:以马斯洛需求层次理论(5级:生理、安全、爱与归属、尊重、自我实现)为框架,将Reiss动机模型的16种基础欲望(如好奇心、理想主义、接纳等)作为子类别,确保评估的理论深度与细粒度。
  • 理论适配逻辑:Reiss模型提供具体动机分类,马斯洛理论提供层级结构,兼顾评估的全面性与系统性。

3. MOTIVEBENCH构建(Construction)

3.1 数据收集与预处理

  • 数据源选择:Persona-Hub提供多样化虚拟角色档案,Amazon评论(33个产品领域)提供真实消费动机,Blogger博客提供日常行为场景,三类数据确保场景多样性与真实性。
  • 数据筛选:使用LLaMA3.1-70B、Qwen2.5-72B等模型过滤数据,优先保留符合动机理论的内容(如购物评论中侧重社交需求、安全需求的动机,而非仅关注产品属性)。

3.2 问题生成与修改

  • 多智能体协作框架:提问者基于“场景-角色-动机-行为”四元组生成初始问题;三名评审者分别从逻辑合理性、答案正确性、难度水平提供反馈;修改者整合反馈迭代优化,直至无进一步建议或达到5轮迭代阈值。
  • 模型多样性:采用多种LLM参与问题生成,减少单一模型带来的偏差。

3.3 问题筛选与过滤

  • 难度分级:使用高性能LLM回答所有问题,将其分为易、中、难三级,确保基准中各难度占比均衡。
  • 场景保留:最终保留100个Persona-Hub场景、50个Amazon场景、50个Blogger场景,兼顾虚拟与真实情境。

3.4 人工校正与验证

  • 人工处理:作者手动审核每个问题,修正逻辑不一致和答案歧义,平均每题耗时6分钟,解决LLM生成中的幻觉问题。
  • 人类标注验证:招募15名不同背景标注者(涵盖多个学科、学历层次),对问题正确性和合理性进行标注,标注一致性达98.17%(≥3人一致),与预设答案契合度达93.00%,验证基准有效性。

4. 实验(Experiments)

4.1 实验设置

  • 评估对象:29个主流LLM,涵盖GPT、LLaMA、Qwen、Phi、GLM等7个模型家族,参数规模从6B到72B+。
  • 提示策略:对比Base(仅任务指令)和CoT(思维链推理)两种策略,CoT要求模型分步推理后输出答案。
  • 偏差控制:生成6种选项排列顺序,计算平均准确率,避免LLM对选项顺序的偏好影响结果。
  • 硬件与工具:开源模型使用vLLM框架(温度参数设为0保证稳定性),闭源模型通过Azure OpenAI API调用。

4.2 主要结果

  • 模型性能排名:GPT-4o表现最佳(Base策略准确率80.89%),开源模型中Qwen2.5系列(72B准确率78.61%)和LLaMA3.1-70B(76.25%)表现突出,Baichuan2系列相对薄弱。
  • 模型规模影响:小模型(<10B)平均准确率57.16%,中模型(10B-34B)61.83%,大模型(>34B)71.34%,呈现明显的规模正相关趋势。
  • CoT策略影响:多数模型在CoT策略下性能下降,小模型(≤34B)降幅6.88%,大模型(≥70B)降幅3.14%,因过度思考或偏离人类直觉推理导致。
  • 需求层次表现:LLM在“爱与归属感”需求上表现最差,主要因这类需求的情感表达隐含、依赖真实社交心理数据,LLM缺乏足够训练样本。

4.3 深入分析

  • 与现有基准的相关性:MOTIVEBENCH的评估维度(动机推理)与LiveBench的通用能力(编码、数学等)相关性平均为0.8175,证明其独特性,能捕捉传统基准忽略的能力维度。
  • GPT-4o与人类的推理差异:归纳四类错误模式——过度理性缺乏情感洞察、逻辑精度弱易泛化、过度理想主义忽视现实、缺乏行为影响认知。
  • LLM作为标注工具的局限:存在逻辑/事实错误、对人类动态理解不足、标注偏差三大问题,需人类参与校正。
  • 模型规模趋势:小模型难以处理复杂情感推理,中模型能捕捉基础动机线索,大模型可整合场景与角色信息,但仍与人类存在推理模式差异。

5. 相关工作(Related Work)

  • 理论心智(ToM)研究:现有研究表明LLM在ToM任务上仍落后于人类,如GPT-4难以检测社交失礼行为,但这类研究未聚焦动机推理维度。
  • 行为模拟研究:部分研究通过游戏(如信任游戏)或社交交互模拟LLM行为,但场景单一,缺乏对动机-行为关联的系统评估。
  • 基准对比:现有基准(如SOCIALIQA、COMMONSENSEQA)场景简单、信息明确,而MOTIVEBENCH基于真实场景和系统动机理论,评估维度更具针对性。

6. 结论与局限(Conclusions & Limitations)

结论

  • MOTIVEBENCH是首个系统评估LLM类人动机-行为推理的基准,揭示了即使最先进的LLM仍存在显著差距。
  • LLM在情感相关动机(如“爱与归属感”)上的短板、过度理性等偏差,为后续模型优化提供了明确方向。
  • 模型规模与动机推理能力正相关,而CoT策略的负面影响提示需开发适配该任务的提示方法。

局限与未来方向

  • 现有局限:问题生成仍依赖人工校正,难以动态更新以避免数据污染;采用“情境问答”范式,与真实人类自发行为存在差距。
  • 未来方向:训练专用修改模型实现全自动化问题生成,动态更新基准;采用沙盒角色扮演范式,评估LLM在连续场景中的主动动机-行为推理能力。