MIRAGE: Exploring How Large Language Models Perform in Complex Social Interactive Environments
MIRAGE: Exploring How Large Language Models Perform in Complex Social Interactive Environments
论文概览
本文假设大语言模型(LLMs)在复杂社交互动环境中的高级人类行为表现可通过结构化框架精准评估,为此构建了基于谋杀之谜游戏的MIRAGE评估框架(含8个多样化脚本和4个核心指标),通过对GPT-3.5、GPT-4、Qwen-2-7B等主流模型的实验,发现即使先进模型在复杂社交场景中仍面临显著挑战,Qwen-2-7B胜率最高(51.81%),GPT-4o在多指标中表现均衡领先,最终得出现有LLM的社交互动能力仍需提升,MIRAGE可有效支撑LLM社交能力评估与对比的结论。
核心问题
现有LLM社交能力评估工具存在脚本范围狭窄、评估方法简单、缺乏对LLM底层社交能力直接评估等缺陷,无法全面衡量LLMs在复杂社交场景中展现出的信任平衡、线索调查、角色扮演合规性、互动协作等高级人类行为,亟需构建一个更全面、客观、沉浸式的评估框架。
主要贡献
- 提出MIRAGE评估框架,以谋杀之谜游戏为载体,设计8个涵盖不同结构(Single/Multi)、类型(Orthodox/Unorthodox)、结局(Close/Open)的多样化脚本,提供沉浸式社交模拟环境。
- 构建4个多维度评估指标(TII、CIC、ICI、SCI),从信任倾向、线索调查、互动能力、脚本合规性四个核心维度量化LLM表现。
- 验证框架有效性,通过人类标注与模型评估结果的Kendall Tau相关性分析,证明MIRAGE评估结果与人类判断高度一致。
- 公开数据集、模拟代码及详细实验结果,揭示LLM在复杂社交场景中的行为特点(如信任倾向、线索探索模式),为后续研究提供基础。
- 针对敏感话题设计伦理解决方案,避免模型因安全机制拒绝回答,保障评估公平性。
研究方法
- 脚本构建:每个脚本包含6个核心部分(角色故事、角色脚本、角色关系、角色表现、角色目标、其他能力),8个脚本覆盖Single/Multi(脚本呈现方式)、Orthodox/Unorthodox(场景真实性)、Close/Open(结局灵活性)三类维度组合。
- 模拟流程:分为三个核心阶段,开放对话阶段(基于角色背景进行轮次对话)、环境互动阶段(选择“询问”或“调查”动作收集信息)、谋杀投票阶段(指控嫌疑人并投票判定胜负)。
- 辅助模块:包含总结模块(处理token限制)、怀疑模块/信任模块(记录对其他角色的态度评分)、重运行模块(修正无法解析的输出)。
- 评估指标:
- TII(信任倾向指数):$TII_{c'}=\frac{\sum_{c \in C, c \neq c'} P_{T}\left(c, c'\right)}{\sum_{c \in C, c \neq c'} P_{S}\left(c, c'\right)+\sum_{c \in C, c \neq c'} P_{T}\left(c, c'\right)}$,其中PS为怀疑模块得分,PT为信任模块得分。
- CIC(线索调查能力):$CIC_{c}=\sum_{c \in C} \frac{CN_{c}}{CA}$,其中CN为角色调查的线索数,CA为可调查的全部线索数。
- ICI(互动能力指数):通过中立LLM评估推理分析、沟通协作、观察、创新思维四大能力。
- SCI(脚本合规指数):结合角色表现直接评分与Rouge-L脚本重构对比结果取平均。
- 实验设计:测试5个主流模型(GPT-3.5、GPT-4、GPT-4o、Qwen-2-7B、GLM-4-9B),每个角色进行5轮迭代实验,采用GPT-4-Turbo作为评估模型(经消融实验验证稳定性),设置temperature=0.8、top_p=1的实验参数。
各章节详解
1. 引言
本章首先概述LLM在环境感知、推理决策及角色扮演领域的显著进展,指出其在社交模拟、政策模拟等场景中已展现出合作、竞争、欺骗等高级人类行为潜力。随后分析现有评估工具的不足:传统桌游(如狼人杀、阿瓦隆)受限于固定决策流程,现有研究(如Sotopia、Lyfe Agents)侧重智能体评估而非LLM底层能力,Wu等人的谋杀之谜游戏模拟存在脚本范围窄、评估方法简单等问题。最后提出MIRAGE框架的核心目标——构建基于谋杀之谜游戏的全面评估体系,直接衡量LLM的社交互动核心能力。
2. MIRAGE构建
2.1 脚本构建
脚本包含6个核心组件,分别定义角色的基础信息、事件中的行为、与其他角色的关系、性格与说话风格、核心任务目标及游戏规则。8个脚本通过“结构-类型-结局”三维度组合实现多样化,例如《东方之星邮轮》(Single/Orthodox/Open)、《狐狸酒店》(Multi/Unorthodox/Open),脚本字数从3039字到62224字不等,提供差异化的社交场景复杂度。
2.2 模拟构建
模拟分为三个阶段且所有信息对参与者公开:开放对话阶段(角色基于脚本进行轮次对话,不可拒绝回答)、环境互动阶段(选择“询问”他人或“调查”线索,线索对全体公开)、谋杀投票阶段(指控嫌疑人并投票, civilians需选出真凶获胜,culprits需隐藏身份获胜)。角色分为culprits(隐藏行为)和civilians(识别真凶)两大阵营。
2.3 辅助模块
为适配不同LLM的性能与限制设计4个模块:总结模块在输入超token限时压缩上下文;怀疑/信任模块在每轮开放对话后记录对其他角色的态度评分;重运行模块对无法解析的输出重新提交请求,确保模拟连续性。
2.4 评估方法
详细定义4个指标的计算逻辑与评估流程:TII基于信任/怀疑评分量化社交态度平衡;CIC通过线索调查数量占比评估信息收集能力;ICI由中立LLM从四大维度打分;SCI结合直接评分与脚本重构相似度评估角色贴合度。附录提供具体数学公式与评估提示词。
2.5 统计信息
通过表格呈现8个脚本的核心统计数据,包括结构类型、结局模式、阶段数、智能体数量、线索数及字数,直观展示脚本的多样性与复杂度分布。
3. 实验
3.1 实验 setup
选取5个主流模型(闭源:GPT-3.5、GPT-4、GPT-4o;开源:Qwen-2-7B、GLM-4-9B),补充测试Qwen-1-7B、Yi-1.5-9B等开源模型。每个角色进行5轮“开放对话-环境互动”迭代,每轮开放对话阶段允许发起1次发言,ICI与SCI由GPT-4-Turbo评分,实验成本约600-700美元/次(以GPT-4为例)。
3.2 结果分析
核心发现包括: - 模型表现:GPT-4o在CIC(35.92)、ICI(76.80)、SCI(51.29)指标领先,Qwen-2-7B胜率最高(51.81%),甚至在SCI上超越GPT-4; - 信任倾向:多数LLM存在高信任倾向,即使面对自我暴露的罪犯,仅Yi-1.5-9B会提升怀疑度; - 线索探索:普通线索的CIC初期快速上升后趋缓,关键线索的CIC波动上升,表明LLM早期热衷环境探索但难以识别核心信息; - 脚本适配:LLM在Multi脚本、Unorthodox脚本、Close脚本中的表现优于Single脚本、Orthodox脚本、Open脚本,反映其在长上下文、非写实场景、固定结局环境中更易发挥。
4. 结论
总结MIRAGE框架的构建价值与实验核心发现,指出现有LLM(无论开源还是闭源)在复杂社交场景中仍有较大提升空间。同时提及研究局限性:数据集规模与现实世界存在差距,LLM上下文限制导致的内容总结可能影响决策,模拟进程受限于模型上下文能力。最后强调伦理考量,针对谋杀、欺骗等敏感话题,设计“模糊关键信息而非拒绝回答”的机制,避免安全机制对评估结果的干扰。
附录
包含10个补充章节,提供消融研究(验证GPT-4-Turbo评估稳定性)、指标计算公式细节、各脚本的详细实验结果、模型版本映射表、实验提示词(如询问、信任评估、投票等场景)、人类标注验证结果等,为研究可重复性提供全面支持。