AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios
AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios
论文概览
本文假设现有大型语言模型(LLMs)的社会智能评估存在场景多样性不足、复杂性欠缺及单视角局限,提出基于拟剧理论(Dramaturgical Theory)和ERG需求理论,采用自下而上的方法从海量脚本构建多样化、复杂化社交场景基准AgentSense,通过多轮交互评估智能体的目标完成度与隐式推理能力,实验发现LLMs在复杂社交场景和高层次成长需求上表现薄弱,即使GPT-4o在隐私信息推理方面仍需改进,最终证实AgentSense能有效区分不同模型的社会智能,揭示其影响因素并为LLM社会智能优化提供方向。
核心问题
现有LLM社会智能评估基准存在三大关键局限:一是场景多样性不足,多为自上而下手动构建,局限于说服、协作等常见场景,缺乏真实世界的多元社交目标与动态;二是场景复杂性不够,多限制为两参与者单目标交互,无法模拟多参与者、多目标并存的真实社交情境;三是单视角评估缺陷,仅关注显性目标完成度,忽略了社交互动中关键的隐私信息隐藏与他人信息推理能力,导致难以全面、真实地评估LLMs的社会智能。
主要贡献
- 提出AgentSense基准,区别于以往自上而下的构建方式,采用自下而上策略从真实脚本提取场景模板,生成1225个涵盖存在需求到成长需求的多样化、高复杂性社交场景,为LLM社会智能评估提供更真实的测试环境。
- 构建多维度评估体系,同时考量目标完成度(自我、他人、外部第三方三重评估)、隐式信息推理能力(选择题测试)及画像敏感性(PSI指标),实现对社会智能的全面衡量。
- 通过大规模实验揭示LLMs社会智能的关键特征:现有模型在复杂场景和高层次目标上表现不足,社会智能受智能体画像、交互伙伴及目标与隐私保护平衡的影响,为后续LLM社会智能优化提供实证依据。
研究方法
- 场景构建:从IMSDb数据库的脚本中提取场景,经场景提取、社交目标提取、隐私信息提取、泄露缓解四步生成245个场景模板,再通过动态生成符合约束的合成智能体实例化出1225个场景,覆盖个人领域、小社会、大社会三类场景及ERG理论下的八大社交目标。
- 社交交互模拟:基于AutoGen框架,为每个智能体分配背景、画像、社交目标与隐私信息,以随机顺序进行多轮对话(上限15轮,参考脚本平均轮次),还原社交互动的动态性与不确定性。
- 多维度评估:目标完成度采用自我、他人、外部第三方(GPT-4o、Qwen2.5-72b等模型)三重投票评分;隐式推理通过隐私信息对应的选择题计算准确率;画像敏感性通过PSI指标(同一模板下场景指标的标准差均值)衡量。
各章节详解
1. 引言(Introduction)
本章首先阐述LLMs驱动的智能体在心理学、社会学等领域的应用前景,指出社会智能对有效社交互动的核心作用,同时通过家庭聚会、办公室对话两个实例,说明当前LLMs在复杂社交场景中存在目标完成受阻、隐私信息推理失败等问题。随后明确现有评估基准的三大局限,引出本文提出的AgentSense基准的核心目标——通过多样化、复杂化的交互式场景,全面评估LLMs的社会智能。
2. 相关工作(Related Work)
本章将现有LLM社会智能评估研究分为两类:一是静态非交互式评估,通过社交常识推理问答任务进行评估,但无法捕捉社交互动的动态性;二是交互式基准,通过角色扮演场景进行目标导向评估,但存在场景多样性、复杂性不足等问题。同时介绍了角色扮演智能体(RPAs)的研究进展及其在心理治疗、经济学等领域的应用,为AgentSense的场景构建与智能体模拟提供理论与实践基础,并突出本文基准在场景构建方式与评估维度上的创新。
3. AgentSense基准(AgentSense Benchmark)
3.1 框架概述
AgentSense的核心框架包含场景构建、社交交互模拟、多维度评估三大模块:先从脚本提取并生成场景模板与实例化场景;再让LLM驱动的智能体进行角色扮演与多轮交互;最后通过三重评估、选择题测试与PSI指标完成社会智能量化。
3.2 场景构建
场景构建分为模板构建与场景实例化两步:模板构建通过四阶段 pipeline 实现(脚本拆分与场景提取→社交目标提取与修正→隐私信息提取与选择题生成→泄露缓解与模板生成),利用GPT-4o自动化处理并替换脚本中特定实体以避免数据泄露;场景实例化则根据场景约束动态生成合成智能体,替换模板中的角色槽位,确保场景合理性与多样性。
3.3 社交交互模拟
为智能体分配完整的背景、画像、社交目标与隐私信息,对话以随机智能体的问候开启,智能体按随机顺序交替发言,可通过语言传递表情或动作,对话轮次上限设为15轮(参考脚本平均轮次),模拟真实社交的动态性与不确定性。
3.4 评估方法
- 目标完成度:通过自我(智能体自评)、他人(其他参与智能体评价)、外部(第三方模型评价)三重维度,以“是/否”投票的平均得分衡量。
- 隐式推理:针对每个隐私信息设计选择题,计算智能体回答的平均准确率(Acc)。
- 画像敏感性(PSI):计算同一模板下所有场景的目标完成度/推理准确率的标准差,再取所有模板的标准差均值,PSI越低表示社会智能越稳定。
3.5 数据验证与分析
数据来源为IMSDb的10部脚本,经处理得到1300个场景、12401轮对话及114834个tokens;通过6名研究生的双人组标注验证场景质量(社交目标的可实现性与清晰度、隐私信息的完整性与无泄露性),kappa一致性系数分别为0.79和0.61;数据覆盖ERG理论下的八大社交目标,智能体画像包含多元性别、年龄、职业、人格特质与道德价值观。
4. 实验(Experiments)
4.1 实验设置
- 评估模型:涵盖Llama系列、Qwen2.5系列、Mistral-7b、GPT-3.5-turbo、GPT-4o等11个主流LLM。
- 评判模型:基于人类标注作为基准,筛选GPT-4o、Qwen2.5-72b、Llama-3-70b作为第三方评判模型,并采用多数投票机制构建混合评判模型。
- 实现细节:使用vLLM部署开源模型,AutoGen管理交互与评判线程,智能体模型温度设为1(鼓励多样性),评判模型温度设为0(保证稳定性)。
4.2 整体性能
- 单模型交互:GPT-4o表现最优,Qwen2.5系列(尤其Qwen2.5-14b)表现突出,Llama-2系列表现较差,Llama-3系列有所提升但仍不及预期;高社会智能模型(如GPT-4o、Qwen2.5)的PSI更低,社会智能更稳定。
- 跨模型交互:GPT-4o与Qwen2.5-14b仍保持优势,与弱模型交互会降低所有模型的性能,且发送者角色(主动传递信息)比接收者角色(被动理解信息)更具挑战性。
- 评估偏差:部分模型存在自我高估(如Llama-2-7b、Mistral-7b),评判模型存在偏好(如Qwen2.5-72b偏好Qwen系列)。
4.3 数据泄露分析
通过脚本预测(模型能否从场景背景推断原始脚本)与盲测(交互前能否回答隐私信息选择题)验证泄露缓解效果:脚本预测准确率接近0,证明泄露缓解有效;盲测准确率为模型推理能力建立基准,进一步验证了评估的公正性。
5. 进一步分析(Further Analysis)
5.1 模型在不同目标上的表现
所有LLM在关系管理(建立、维护)与协作类目标上表现最佳;大型模型(如Qwen2.5-14b、GPT-4o)在信息交换与身份识别目标上显著优于小型模型;但所有模型在竞争与冲突解决目标上表现薄弱,且存在自我高估现象。
5.2 推理与保密能力对比
将智能体分为攻击者(推断他人隐私信息)与防御者(保护自身隐私信息)两类:多数模型防御能力不足,易泄露隐私且表现不稳定;GPT-4o在攻击与防御两方面均表现优异,Qwen2.5-14b擅长攻击(信息推断),Llama-3-8b更擅长防御(隐私保护)。
5.3 画像对场景的影响
通过χ2检验(p − value = 0.05)分析画像替换对场景的影响,χ2计算公式为: $\chi^{2}=\frac{(n-1) s^{2}}{\sigma_{0}^{2}}$ 其中n为样本数,s2为样本方差,σ02为总体方差。结果显示92.6%的场景满足原假设(画像替换无显著影响);剩余7.4%的异常场景源于两类问题:一是目标涉及违背普世价值的行为(受智能体人格与LLM对齐影响),二是场景需要详细个人信息(通用替换流程失效)。
6. 结论(Conclusion)
本章总结AgentSense基准的核心价值:通过自下而上构建的多样化、高复杂性场景,实现对LLM社会智能的全面、真实评估。重申实验核心发现:现有LLMs在复杂社交场景和高层次成长需求上存在明显短板,社会智能受画像、交互伙伴等因素影响。同时指出研究局限:场景构建仍需部分人工验证,未实现更大规模扩展;最后强调AgentSense的目标是推动LLMs在复杂社交场景中的性能优化,促进智能体与人类的有效、和谐互动。
局限性与伦理声明
- 局限性:场景构建的自动化流程仍需人工验证,导致场景规模未能进一步扩大,未来可优化自动化流程以扩展数据量。
- 伦理声明:AgentSense旨在评估而非鼓励违背社会规范的智能体行为;通过合成智能体而非真实个体角色扮演,避免拟人化带来的不切实际期望与潜在操纵风险;标注人员薪酬符合其所在国家研究生薪资标准。
交付物提议
要不要我帮你整理一份AgentSense基准核心技术细节清单,包含场景构建pipeline、评估指标计算方法及关键实验结果的汇总表格,方便快速查阅核心技术要点?