HUMAN SIMULACRA: BENCHMARKING THE PERSONI
HUMAN SIMULACRA: BENCHMARKING THE PERSONIFICATION OF LARGE LANGUAGE MODELS
论文概览
本文假设通过心理学理论指导的人格建模、结构化数据集构建和类人类认知机制设计,LLMs可实现与人类行为一致的深度人格化模拟,进而替代心理与社会学实验中的人类被试;方法上构建了基于荣格八维理论的人格模型、含11个虚拟角色的Human Simulacra数据集、多智能体认知机制(MACM)及“自我报告+观察者报告”的评估框架,并在14个主流LLM上进行验证;实验结果显示GPT-4-Turbo在自我报告中达88.00%准确率,观察者报告中MACM支持下达77.75%,且能模拟从众效应但行为仍显机械;结论为LLMs在部分心理社会学实验中具备替代人类被试的潜力,本文提出的基准为人类模拟领域提供了数据、方法与评估范式。
核心问题
- 现有LLM人类模拟存在局限:仅适用于群体研究、跨任务表现不一致、难以捕捉人类复杂行为特征。
- 如何构建心理学驱动的人格化基准,实现兼具一致性与深度的人类模拟,同时建立科学的评估体系。
- 探索LLMs在多大程度上可替代心理与社会学实验中的人类被试,降低研究成本与伦理风险。
主要贡献
- 提出基于荣格八维人格理论的建模方法,设计640个详细特质描述,实现更全面的人格刻画。
- 构建Human Simulacra数据集:含11个具有独特属性、传记和故事的虚拟角色,共129k文本,避免历史人物的幻觉与伦理风险。
- 创新多智能体认知机制(MACM):通过四个LLM驱动智能体模拟人类记忆与认知过程,提升模拟的真实性。
- 设计心理导向评估框架:结合自我报告(考察自我认知)与观察者报告(考察场景行为一致性),全面衡量人格化效果。
- 开展大规模实验验证:在14个主流LLM上测试4种模拟方法,复制阿希从众实验,证实LLM替代人类被试的可行性。
研究方法
- 数据集构建:采用“结构化属性池+人类反馈迭代生成”策略,先设计含姓名、职业、人格等11类属性的候选池,生成100个候选档案后筛选11个,再通过至少50轮迭代扩展为详细人生故事。
- 人格建模:基于荣格八维理论(如外倾思维Te、内倾感觉Si),采用相对排序策略定义特质强度,为每个排序匹配对应日常行为描述,形成640个特质的候选池。
- 认知机制设计:MACM包含思维、情绪、记忆、顶层四个智能体,将人生故事转化为长时记忆,通过多智能体协作实现逻辑分析、情绪表达与记忆调用。
- 评估方法:
- 自我报告:针对每个角色设计填空、单选、多选题,考察对自身属性与经历的记忆准确性。
- 观察者报告:基于55个诱发情绪/人格的场景,通过人类评判分析模拟行为与目标人格的匹配度及与人类反应的相似度。
- 实验复制:复刻阿希从众实验,测试模拟对群体压力的反应一致性。
- 实验设计:选取14个主流LLM,对比None(无信息)、Prompt(属性提示)、RAG(检索增强)、MACM四种方法,在自我报告、观察者报告、从众实验三种设置下验证效果。
各章节详解
1 引言
- 背景:心理与社会学研究依赖人类被试,面临招募难、不确定性高、伦理风险等问题,LLM的人类模拟潜力受关注但现有方法存在局限。
- 核心问题:现有LLM模拟仅适用于群体研究、表现不稳定、缺乏行为深度,需构建心理学驱动的人格化基准。
- 研究目标:提出包含数据集、认知机制、评估方法的完整基准,探索LLMs替代人类被试的可能性。
2 相关工作
- 认知心理学中的记忆系统:借鉴多存储模型(感觉记忆、短时记忆、长时记忆)与工作记忆理论,为MACM提供基础。
- 角色扮演研究:现有工作聚焦历史人物模拟,缺乏心理学理论支撑,难以实现深度人格化,本文通过虚拟角色、心理学指导与人类反馈突破该局限。
- 对比差异:本文与现有角色扮演数据集的核心区别在于引入心理学支撑、人类反馈与完整人生故事。
3 HUMAN SIMULACRA数据集
3.1 角色属性设计
- 涵盖11类核心属性:姓名、年龄(20-56岁)、性别、出生日期、职业(76种常见职业)、人格特质、爱好、家庭背景、教育背景、短期目标、长期目标,确保属性多样性与合理性。
- 规避敏感属性(如国籍、种族)以减少偏见,后续将拓展少数群体模拟。
3.2 人格建模
- 基于荣格八维人格理论,将人格分为8个互补倾向,采用相对排序策略(1-8名)定义特质强度,排序首尾的特质更显著。
- 为每个排序匹配10个日常行为描述,形成640个特质描述的候选池,每个角色最终选取20个特质描述。
3.3 角色档案与人生故事生成
- 流程:随机生成100个候选档案→人工筛选11个高质量档案→LLM生成简短传记→通过“质量检查-分块-评分-扩展”的迭代流程(至少50轮)→人类反馈优化,最终形成129k文本的人生故事。
- 评分标准:基于重要性(与故事核心的相似度)、详尽度(与自身摘要的相似度)、冗余度(与其他分块的相似度)筛选扩展对象。
4 心理导向评估
4.1 自我报告
- 测试内容:针对每个角色设计专属问卷,涵盖核心属性、社会关系、人生经历,题型包括填空、单选、多选。
- 评分方式:基于答案与角色档案的精确匹配度计分,平均3次重复测试结果。
4.2 观察者报告
- 场景设计:选取55个诱发情绪/人格的假设场景(如“朋友带陌生人参加约会”“网购裤子不合身被拒退换”)。
- 评估流程:人类评判先基于模拟反应描述人格,再对比目标人格匹配度;同时人类模拟目标角色的场景反应,对比与LLM反应的相似度。
4.3 多智能体认知机制(MACM)
- 核心功能:将叙事人生故事转化为结构化长时记忆,通过多智能体协作模拟人类认知过程。
- 组成与流程:
- 顶层智能体:任务分配与响应生成。
- 思维智能体:逻辑分析与内容记忆构建。
- 情绪智能体:情绪记忆构建与情感分析。
- 记忆智能体:长时/短时/工作记忆管理与检索。
- 流程:接收刺激→记忆检索→逻辑与情绪分析→整合生成响应。
5 实验
5.1 心理导向评估结果
- 自我报告:参数规模越大、针对对话优化的LLM表现越好;MACM在强性能LLM(如GPT-4-Turbo)上达最佳88.00分,RAG因信息过载在弱性能LLM上表现不及Prompt。
- 观察者报告:GPT-4-Turbo中,MACM的描述匹配度与反应相似度均最优,最终得分77.75,显著优于Prompt(69.00)与RAG(65.50),但仍低于人类水平。
5.2 心理学实验复刻(从众效应)
- 实验设计:复刻阿希实验,18轮测试含12轮关键 trials(其他7人故意给出错误答案),测试11个虚拟角色的从众行为。
- 结果:
- Character.ai完全顺从群体,正确率0%;
- MACM能模拟人格差异(坚定型角色坚持正确答案,顺从型角色屈服压力),整体趋势接近人类但行为更机械(无波动);
- 验证了LLM模拟特定人类行为模式的可行性。
6 讨论
- 荣格理论选择依据:相比大五人格、MBTI,荣格理论分类更全面、强调个体差异,且与DSM-III人格障碍分类具有一致性,可靠性得到支撑。
- 模拟目标选择:虚拟角色相比真实人类、小说角色,可获取完整人生故事与定制化人格,无隐私与幻觉风险。
- 数据集成本:每个角色需API调用费用与至少5天人工审核,11个角色共耗时超1个月,依赖8×3090 GPU。
- 定位:本文是人类模拟领域的初始探索,提供完整的“数据-方法-评估”范式,未来需解决LLM偏见、模拟保真度等问题。
7 结论
- 核心成果:构建了心理学驱动的人类模拟基准,包括高质量数据集、MACM认知机制与双阶段评估方法。
- 实践意义:大规模实验与从众实验复刻证实,LLMs在部分心理社会学实验中可替代人类被试,降低研究成本与伦理风险。
- 伦理声明:本文数据与方法不得用于有害用途,交互前需告知用户模拟体为计算机生成。
关键公式
角色相似度计算:$d_{total }=\frac{d_{L 1}+1-\tau}{2}$,其中dL1为属性的L1距离,τ为人格排序的Kendall Tau相关系数,dtotal越大表示角色差异越大(平均0.6969)。