Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks
Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks
论文概览
本文假设基于实证推导的人类信念网络(而非仅人口统计学信息)能提升角色扮演LLM智能体与人类信念的对齐度,通过因子分析从人类调查数据构建含9个正交潜在因子的信念网络,采用上下文学习(ICL)和监督微调(SFT)构建不同实验条件的LLM智能体并以$MAE_{test}$和相对增益为指标评估,结果表明仅人口统计学信息无法实现有效对齐,而注入同一信念网络的单一初始信念能显著提升相关主题的对齐度,跨网络主题无此效果,且结合人口统计学信息时效果最优,最终证实人类信念网络为LLM与人类信念对齐提供了新颖且有效的路径。
核心问题
当前LLM通过人口统计学特征进行角色扮演时,与人类群体的信念对齐效果不可靠(如倾向于反映自由派、高教育水平群体的观点),难以满足真实社会模拟中对人类行为复刻的需求,如何通过更有效的策略提升LLM智能体与人类信念的对齐度,使其更精准地模拟人类信念分布模式。
主要贡献
- 提出一种基于人类信念网络的LLM对齐新框架,突破了仅依赖人口统计学信息的局限,为社会模拟中的LLM智能体构建提供新思路。
- 实证验证了“同一信念网络内初始信念引导”的有效性,证实该策略在多种LLM(ChatGPT、GPT-4o mini等)、两种训练方式(ICL、SFT)中均稳定生效。
- 构建了包含64个争议性主题、9个正交潜在因子的人类信念网络数据集,为后续LLM信念对齐研究提供基础资源。
- 量化了人口统计学信息与信念网络的协同作用,明确两者结合能实现最优对齐效果(如ChatGPT的平均相对增益达22.54%)。
研究方法
- 数据来源:采用Controversial Beliefs Survey数据集,含564名美国受访者对64个主题的信念评分(6点李克特量表,$$ -3 \leq o_i \leq 3 $$,$o_i \neq 0$)及年龄、政治倾向等人口统计学信息。
- 信念网络构建:通过主成分分析(PCA)结合Varimax旋转,从64个主题中提取9个正交潜在因子(累计解释72%方差),形成9个无重叠的主题集群(如超自然相关的“Ghost”因子、政治极化相关的“Partisan”因子)。
- LLM智能体构建:设计6种实验条件(无人口统计学、仅人口统计学、仅同一类训练主题、人口统计学+同一类训练主题、人口统计学+随机类训练主题、上限条件),采用ICL和SFT两种方式构建“数字孪生”智能体。
- 评估指标:使用平均绝对误差$MAE_{test} = \frac{1}{|X_{test}|} \sum_{x \in X_{test}}|o_{i,x} - o_{i’,x}|$(范围0-4,越小对齐度越高)和相对增益(衡量信念网络相较于仅人口统计学信息的提升幅度)。
- 模型与参数:评估ChatGPT、GPT-4o mini、Mistral、LLaMA 3.1四种模型,基础温度参数$T=0.7$,并通过$T \in {0,1}$进行敏感性分析。
各章节详解
1. 引言
本章阐述LLM在社会模拟、沟通说服动力学研究中的应用潜力,同时指出当前仅依赖人口统计学角色扮演的局限(如信念对齐不可靠、易偏向特定群体观点)。基于人类信念存在“高维协变模式”的实证发现(如支持社会福利者更倾向支持高税收),提出核心研究思路:利用人类信念网络引导LLM智能体的信念对齐,而非仅依赖人口统计学信息,并概述研究目标与核心假设。
2. 预备知识:作为人类数字孪生的LLM智能体
定义LLM智能体为人类受访者的“数字孪生”$i’$,核心目标是使智能体在各主题$x$上的观点$o_{i’}$与人类观点$o_i$对齐。明确智能体构建的输入信息(人口统计学$d$、信念网络信息)与输出评估对象(各主题观点),为后续方法设计奠定概念基础。
3. 方法
3.1 争议性信念调查
详细介绍数据集的构成:564名美国受访者、64个涵盖历史、科学、政治等领域的争议性主题(以事实命题形式呈现)、6点李克特量表评分规则(无中立选项)及完整的人口统计学变量,说明数据为信念网络构建和智能体评估提供的基础支持。
3.2 基于因子分析的信念网络构建
解释因子分析流程:先计算主题间评分相关矩阵,再通过PCA+Varimax旋转提取9个潜在因子(依据碎石图确定因子数量),形成9个无重叠的主题集群。每个因子对应一组高载荷主题(如“Ghost”因子包含“与死者对话”“灵魂出窍”等12个超自然主题),最终构建出结构化的人类信念网络。
3.3 LLM智能体构建
- ICL方式:设计6种实验条件,核心差异在于输入信息的组合(人口统计学信息、同一/随机集群的训练主题观点、查询主题观点),训练主题为各因子中载荷最高的主题,查询主题为同集群剩余55个测试主题。
- SFT方式:针对“Ghost”和“Partisan”两个因子,构建$(d_i, x_{train,i}) \rightarrow o_{train,i}$的微调数据集(平衡标签分布),微调后评估同集群测试主题的观点对齐度,与ICL方式形成对比验证。
4. 实验设置
4.1 LLM智能体配置
说明所使用的4种LLM模型及参数(温度$T=0.7$),智能体通过LangChain构建,人口统计学信息、训练主题观点纳入系统消息,查询主题通过用户消息输入。
4.2 评估指标
明确$MAE_{test}$的计算方式,定义相对增益公式:$Relative Gain (%) = \frac{MAE_{test}(Demo) - MAE_{test}(Demo+Train[same])}{MAE_{test}(Demo) - MAE_{test}(Upper Bound)} \times 100$,其中上限条件为同时输入训练主题和查询主题的人类观点。
4.3 监督微调细节
补充SFT的关键参数( epoch=3、批次大小=1、学习率乘数=2)、数据集构建规则(平衡标签分布以避免偏向多数观点)及评估逻辑,确保SFT实验的可复现性。
5. 结果
核心发现包括:1)仅人口统计学信息(Demo条件)的$MAE_{test}$与无人口统计学条件(No-Demo)接近,对齐效果无提升;2)注入同一集群训练主题观点后(Demo+Train[same]),$MAE_{test}$显著降低(ChatGPT平均从1.70降至1.34),相对增益达22.54%,而跨集群注入(Demo+Train[random])无此效果;3)结合人口统计学与同一集群训练主题观点的效果最优,优于仅注入训练主题观点(Train[same]);4)平衡标签分布的验证实验表明,对齐效果源于语义理解而非标签重复;5)SFT方式与ICL方式结果定性一致,且不同温度参数下结论稳定。
6. 相关工作
将研究置于两大领域背景下:1)LLM信念对齐研究:现有研究证实人口统计学角色扮演的局限,本文首次提出信念网络引导策略,补充了对齐方法的维度;2)人类信念网络研究:现有研究已证实信念网络的协变特性与态度溢出效应,本文首次将其应用于LLM智能体构建,拓展了信念网络的应用场景。
7. 结论与局限
总结核心发现:人类信念网络是提升LLM与人类信念对齐的有效工具,仅人口统计学信息无效,同一网络初始信念的引导作用具有集群特异性。指出研究局限:主题范围集中于9个因子、信念网络结构基于PCA(可采用贝叶斯网络等更复杂模型)、智能体仅输出李克特评分(未模拟真实场景中的观点表达),并提出未来可拓展主题范围、优化信念网络模型、模拟更复杂的观点表达行为等研究方向。同时附上伦理声明,说明研究旨在理解错误信息传播等社会现象,避免产生有害响应。