SOTOPIA: INTERACTIVE EVALUATION FOR SOCIAL INTELLIGENCE IN LANGUAGE AGENTS

SOTOPIA: INTERACTIVE EVALUATION FOR SOCIAL INTELLIGENCE IN LANGUAGE AGENTS

论文概览

核心问题

现有AI社会智能评估基准存在局限:要么缺乏交互性,要么无法覆盖多样化目标驱动的社会行为,难以稳健衡量语言Agent在复杂真实社会场景中的社会智能(如理解他人意图、平衡冲突规范、达成社交目标等)。

主要贡献

  1. 提出SOTOPIA:一个开放式、通用领域的交互式环境,支持目标导向的社会交互模拟,可扩展用于训练和评估语言Agent的社会智能。
  2. 设计SOTOPIA-EVAL:一个多维度评估框架,从7个核心社会维度综合衡量Agent表现,灵感源自社会学、心理学和经济学。
  3. 实现评估自动化:验证GPT-4可作为人类判断的代理,尤其在目标完成、财务收益和关系维护等维度相关性显著。
  4. 揭示关键差异:明确了不同LLM间的社会智能差距,以及LLM与人类在社会交互能力上的核心区别,识别出对所有模型均具挑战性的SOTOPIA-hard场景集。

研究方法

  1. 构建任务空间:生成90个涵盖合作、竞争、混合目标的社会场景,40个含人格、价值观、秘密等属性的角色,5类社会关系(家人、朋友、恋人、熟人、陌生人),交叉组合形成450个任务。
  2. 模拟交互 episodes:Agent(LLM或人类)基于场景、角色设定和私有目标,通过语言、非语言或物理行动进行多轮交互(最多20轮),episode随Agent选择离开或达到轮次上限结束。
  3. 评估与对比:采用SOTOPIA-EVAL框架,由人类和GPT-4分别评分;对比GPT-3.5、GPT-4、Llama-2-70b-chat、MPT-30b-chat等模型的表现,以及模型与人类在SOTOPIA-hard场景中的交互差异。

论文各章节详解

1 引言

阐述人类社会智能的核心是在交互中平衡复杂社会目标,而现有AI社会智能基准存在“非交互性”或“任务单一化”缺陷。提出SOTOPIA的设计目标:通过交互式、目标导向、多样化的社会场景,填补现有评估空白,为语言Agent的社会智能研究提供测试平台。

2 SOTOPIA交互环境

2.1 任务空间

  • 角色:含姓名、年龄、人格特质(大五人格)、道德价值观等属性,附加秘密和公开信息,共40个角色。
  • 关系:5类关系影响角色信息可见性(如亲友可见除秘密外的全部信息,陌生人无可见信息)。
  • 场景:含共享上下文(地点、时间)和私有目标,通过GPT-4结合现有数据集生成并人工验证,覆盖各类社会交互类型。

2.2 交互 episodes

Agent可执行5类行动:语言表达、非语言沟通、物理行动、沉默(none)、离开(结束episode),按轮询制交替行动,轮次上限20轮。

3 SOTOPIA-EVAL评估框架

7个评估维度及评分范围:

  1. 目标完成(GOAL):$[0,10]$,衡量Agent达成设定社会目标的程度。
  2. 可信度(BEL):$[0,10]$,评估行为的自然性与角色一致性。
  3. 知识获取(KNO):$[0,10]$,衡量通过交互获取新重要信息的能力。
  4. 保密(SEC):$[-10,0]$,评估保护秘密或隐私意图的成效。
  5. 关系维护(REL):$[-5,5]$,衡量交互对人际关系、社会地位的影响。
  6. 社会规则(SOC):$[-10,0]$,评估是否违反社会规范或法律。
  7. 财务收益(FIN):$[-5,5]$,衡量短期与长期经济利益得失。

4 研究问题与实验设置

  • 研究问题:① GPT-4能否替代人类进行社会交互评估?② 不同模型间及模型与人类的社会智能差异如何?
  • 实验设计:450个任务,覆盖模型间、模型-人类、人类-人类交互;模型温度设为1(鼓励多样性),评估者温度设为0(保证稳定性);聚焦SOTOPIA-hard(20个最具挑战性场景)分析模型与人类差异。

5 GPT-4评估有效性验证

  • 数据收集:200个episode由Amazon Mechanical Turk工人标注,计算人类评分平均值( Randolph κ = 0.503),同时由GPT-4按相同标准评分。
  • 结果:74%以上的GPT-4评分落在人类评分±1个标准差内,在模型角色的GOAL(0.71)、FIN(0.62)、REL(0.56)维度与人类评分相关性显著,但对人类角色的评估相关性较低,且在SOC、SEC维度评分偏乐观。

6 LLM间社会交互评估

  • 模型排名:GPT-4在多数维度表现最优(如GOAL=7.62,BEL=9.28),其次是GPT-3.5、Llama-2-70b-chat、MPT-30b-chat。
  • 关键发现:① 静态基准表现好的模型(如Llama-2-70b-chat)在交互式场景中表现不佳;② 弱模型会拉低交互伙伴的表现;③ 所有模型均存在泄密和违反社会规则的风险(SOC、SEC维度为负分);④ GPT-4可产生创造性问题解决方案。

7 模型与人类的社会智能差异

  • SOTOPIA-hard场景中,人类目标完成率(人类-人类交互6.15,人类-GPT-4交互5.95)显著高于GPT-4(4.85)。
  • 人类优势:表达更高效(平均每轮16.8词 vs GPT-4的45.5词)、策略性更强(如谈判时低报价)、目标更坚定(不轻易妥协)。

8 相关工作

对比静态社会智能基准(如SocialIQA)、任务导向/开放域对话系统、LLM社会交互模拟研究,指出SOTOPIA在交互性、目标导向性、多维度评估上的独特性。

9 结论

总结SOTOPIA作为社会智能评估与训练平台的潜力,指出其局限(如关系类型有限、二元交互),并提出未来方向(扩展角色/场景、多主体交互、减轻评估偏见)。

一句话总结

论文假设交互式、多维度评估框架可有效衡量语言Agent的社会智能,通过构建SOTOPIA环境与SOTOPIA-EVAL框架,结合模型间、模型-人类交互实验,发现GPT-4可在部分维度替代人类评估,但所有LLM在复杂场景中目标完成率均低于人类且缺乏社会常识推理与策略沟通能力,证实了SOTOPIA对语言Agent社会智能评估与提升的价值。