SPeCtrum: A Grounded Framework for Multidimensional Identity Representation in LLM-Based Agent

SPeCtrum: A Grounded Framework for Multidimensional Identity Representation in LLM-Based Agent

论文概览

本文假设整合社会身份(S)、个人身份(P)与个人生活情境(C)的多维框架能更真实地模拟人类身份,通过自动化评估(美剧角色)和人类评估(真实个体)验证框架有效性,发现自动化评估中C单独作用接近SPC组合,而人类评估中SPC组合表现最优,最终得出该框架可提升LLM智能体身份表征的真实性与准确性,助力个性化人机交互和社会模拟的结论。

核心问题

现有LLM智能体的身份模拟方法往往过度简化人类身份的复杂性,存在刻板印象问题,仅聚焦单一维度(如人口统计学特征或人格特质),未能体现社会属性、心理特质与生活情境的动态交互,导致身份表征不完整、不真实。

主要贡献

  1. 提出SPeCtrum框架,基于社会科学中的自我概念理论,整合S、P、C三维度,为LLM智能体提供结构化、真实的多维身份表征方案。
  2. 通过自动化评估(美剧角色)和人类评估(真实个体)双实验设计,系统验证了框架的有效性,揭示了不同维度在身份表征中的作用差异。
  3. 发现个人生活情境(C)是身份表征的核心基础,而S、P、C的整合对真实个体的身份模拟至关重要,为LLM智能体的身份构建提供了实证依据。

研究方法

  1. 框架构建:基于社会科学理论,S来自19项人口统计问卷,P来自BFI-2-S人格量表和PVQ价值观量表,C来自日常作息与偏好的开放式短文;知识注入过程中,S结构化整合,C直接嵌入,P通过Chain of Density技术转化为专业与日常双版本描述。
  2. 自动化评估:选取45个美剧角色构建数据集,采用“猜猜是谁”测试(角色识别)和TST测试(自我概念表征),通过GPT-4o、GPT-3.5 Turbo等4个LLM模型,评估7种维度组合(S、P、C、SP、SC、PC、SPC)的表现。
  3. 人类评估:招募80名美国参与者提供S、P、C数据,生成4种智能体(S、P、C、SPC),让参与者评估智能体生成的4类短文(自我介绍、未来愿景等)与自我认知的相似度。
  4. 反向推理验证:通过GPT-4o从C中推断S和P属性,对比真实数据,验证C对其他维度的信息涵盖程度。

各章节详解

1 引言

身份是涵盖社会、个人与情境属性的复杂多维概念,LLM的发展推动了人类行为模拟的应用,但现有方法存在刻板印象和简化问题。本文基于社会科学中的自我概念理论,提出SPeCtrum框架,整合社会身份(S)、个人身份(P)、个人生活情境(C)三维度,通过自动化和人类评估验证框架在身份表征中的有效性,最终实现更个性化的人机交互和更真实的社会模拟。

2 相关工作

现有LLM智能体身份构建框架多聚焦单一维度,如人口统计学特征、人格特质或价值观,导致身份表征存在偏见或不完整。社会心理学研究表明,自我概念源于社会属性、心理特质与生活体验的动态交互,而现有方法忽视了这种多维关联性。SPeCtrum框架突破单一维度局限,基于社会科学理论识别身份核心要素,构建系统的信息整合流程,实现更全面的身份表征。

3 SPeCtrum框架详解

3.1 核心维度定义与数据来源

  • 社会身份(S):个体作为社会群体成员的先天与后天属性,如年龄、性别、教育、职业等,通过19项人口统计问卷收集。
  • 个人身份(P):核心心理特质与价值观,采用30题BFI-2-S人格量表(测量外向性等五大人格)和21题PVQ价值观量表(测量享乐主义等十个维度)评估。
  • 个人生活情境(C):身份在日常生活中的具体体现,通过两篇开放式短文收集——日常作息(工作日/周末)和个人偏好(5项喜爱/厌恶事物)。

3.2 知识注入过程

  • S维度:将结构化问卷数据整理为列表直接嵌入提示词。
  • C维度:保留开放式短文的原始表达,直接整合至提示词,保留语境细节。
  • P维度:先将量表1-7分李克特分数转化为自然语言描述,再通过Chain of Density技术生成专业(心理治疗师视角)和日常语言双版本总结,避免机械复述量表内容。

4 自动化评估(虚构角色)

4.1 实验设计

选取《老友记》《生活大爆炸》等6部美剧的45个核心角色,通过GPT-4o生成S、P、C数据并经人工验证,采用“猜猜是谁”测试(识别角色与剧集)和TST测试(生成10条公开自我/10条隐藏自我陈述),评估7种维度组合在4个LLM模型中的表现。

4.2 实验结果

  • “猜猜是谁”测试:各模型均呈现P < S < C的有效性层级(调整后p < .001),C单独作用与SPC组合无显著差异,SP组合表现弱于C。
  • TST测试:C维度仍为最优,显著优于S、P及SP组合(调整后p < .001),与SPC组合效果相当;P维度在隐藏自我陈述中表现优于S,对深层自我概念表征有一定作用。
  • 反向推理:从C中推断S的分类变量准确率达79%-97%(如性别95%、国籍89%),序数变量相关系数Spearmansρ = 0.41 − 0.68;推断P的人格特质相关系数r = 0.686,价值观相关系数r = 0.71,验证C对S、P维度的信息涵盖能力。

5 人类评估(真实个体)

5.1 实验设计

80名美国参与者完成S、P、C数据收集,基于框架生成S、P、C、SPC四种智能体,让参与者评估智能体生成的4类短文(自我介绍、未来愿景、压力应对、幸福定义)与自我认知的相似度(0%-100%),并收集开放式反馈。

5.2 实验结果

  • 相似度评分:SPC组合(b = 5.13p = .003)显著高于C单独作用,C维度显著优于S(t = 2.65p = 0.04)和P(t = 4.04p < .001),S与P无显著差异(p = 0.50)。
  • 反向推理:从C推断真实个体S的序数变量相关系数(如年龄Spearmansρ = 0.37、教育0.19)显著低于虚构角色;推断P的价值观相关系数r = 0.362,远低于虚构角色的r = 0.71,表明C单独难以完整涵盖真实个体的复杂身份。

6 结论

SPeCtrum框架通过整合S、P、C三维度,为LLM智能体提供了结构化的多维身份表征方案。自动化评估表明,个人生活情境(C)是身份表征的核心基础,单独作用可接近完整组合;但人类评估显示,真实个体的身份复杂性更高,S、P、C的整合能显著提升身份表征的真实性与全面性。该框架为个性化人机交互和社会模拟提供了有效工具,未来可进一步拓展多源数据整合。

7 局限与未来方向

局限:样本仅包含美国参与者,语言为英语,缺乏文化多样性;评估方法存在局限(如“猜猜是谁”测试假设LLM模型具备相同的剧集知识);依赖自我报告数据,可能受书写质量影响。未来方向:引入维度权重调整机制,拓展多语言/多文化场景;优化评估方法,整合非自我报告数据(如行为数据),提升框架的通用性与稳定性。

8 伦理考量

研究严格遵循伦理规范,人类评估经首尔国立大学伦理委员会批准,参与者签署知情同意书,明确研究目的、数据用途及退出权利。数据采用匿名化处理,仅授权研究人员访问,避免隐私泄露;明确反对框架用于 impersonation、欺骗或冒犯性内容创作。