Mind the (Belief) Gap: Group Identity in the World of LLMs
Mind the (Belief) Gap: Group Identity in the World of LLMs
论文概览
本文假设大型语言模型(LLMs)会表现出信念一致性(即倾向于与持有相似信念的主体对齐),且该特性会影响下游任务表现;通过构建多智能体框架模拟经典群体心理学实验,测试虚假信息传播和LLM学习两大下游任务,并采用三种基于社会心理学的缓解策略;结果发现LLMs的信念一致性比人类更强,会加剧虚假信息传播并阻碍学习,而全球政治公民框架和准确性提示分别对这两项任务的缓解效果最优;结论是结合社会心理学与AI技术,可有效应对LLMs中信念驱动的偏差,为多智能体LLM的现实应用提供指导。
核心问题
- LLMs是否会表现出信念一致性(与人类类似的、倾向于偏好信念相似主体的特性)?
- 若LLMs存在信念一致性,是否会影响其在关键下游任务中的表现?
- 能否通过基于社会心理学的策略,缓解信念一致性带来的负面影响?
主要贡献
- 开发了多智能体LLM框架,通过模拟Rokeach和Mezei(1966)的经典实验,对开源(llama-3、qwen-2.5)和闭源(gpt-35)LLM的信念一致性进行了全面实证分析。
- 首次评估了信念一致性对两项核心下游任务的影响:虚假信息传播(考察信念同质性/异质性群体对虚假信息扩散的作用)和LLM学习(分析信念一致性对智能体学习能力的干扰)。
- 提出三种基于社会心理学的缓解策略(接触假设、准确性提示、全球公民框架),有效降低了信念一致性的负面影响,其中全球政治公民框架使虚假信息传播减少37%,准确性提示使LLM学习效果提升11%。
研究方法
- 多智能体框架设计:模拟Rokeach和Mezei的“种族×信念”析因实验,设置校园(讨论兄弟会废除等话题)和实地(精神病院工作偏好选择)两类场景,让LLM智能体与不同种族、不同信念的“协作者”交互并选择偏好对象。
- 下游任务设计:
- 虚假信息传播:构建民主党/共和党政治角色的LLM智能体,使用LIAR和Fake News Elections数据集,通过四轮交互(初始评估→说服→开放视角→最终评估)测试信念同质性/异质性群体的信息传播效果。
- LLM学习:设计“学习-选择”两阶段任务,智能体需在抽象模式识别任务中选择信息来源,对比政治信念相似性与来源准确性对学习决策的影响。
- 缓解策略实施:接触假设(引入民主党与共和党混合的异质性群体)、准确性提示(通过提示引导智能体优先验证信息准确性)、全球政治公民框架(通过系统提示赋予智能体跨政治立场的包容视角)。
- 评估指标:虚假信息传播任务采用正确性率($\text{correctness rate} =\frac{\sum_{i=1}^{N} \mathbb{I}\left(f\left(x_{i}\right)=y_{i}\right)}{n}$,其中f(xi)为智能体判断,yi为真实标签);LLM学习任务采用来源选择比例(偏好信念相似来源的概率)和置信度变化(选择不同来源后置信度提升的比例)。
章节详解
1. 引言
本章首先介绍信念一致性理论(Rokeach,1960),即人类倾向于与信念相似者对齐,该理论是理解群体间动态、偏见和合作的核心。随后指出LLMs已广泛用于社会行为模拟,但对其群体心理特性(如信念一致性)的研究尚属空白。基于此,本文提出三大研究问题,并明确研究目标:通过多智能体框架探究LLMs的信念一致性及其下游影响,同时开发缓解策略,搭建社会心理学与AI的桥梁。
2. 信念一致性多智能体框架
2.1 心理学基础
以Rokeach和Mezei(1966)的经典实验为蓝本,该实验通过“种族(黑/白)×信念(一致/对立)”的四组协作者设计,发现人类的社会偏好中,信念一致性比种族归属感更具决定性。本文沿用该实验的校园(白人参与者)和实地(黑/白参与者)两类场景,以及对应的讨论话题(如校园兄弟会废除、精神病院患者管理规则等)。
2.2 多智能体LLM实验
选取三种主流LLM(llama-3-70b-instruct、qwen-2.5-72b-instruct、gpt-35-turbo),随机化交互顺序,让“主席智能体”(持有特定信念)与四组“协作者智能体”(不同种族/信念组合)交互后,选择偏好的咖啡伙伴(校园场景)或工作伙伴(实地场景),并通过记忆阶段验证智能体对协作者信念的识别准确性。
2.3 实验发现
- 跨模型对比:gpt-35的信念一致性最高(平均0.93),其次是qwen-2.5(0.67)和llama-3(0.66),开源模型因规模相似表现相近。
- 与人类实验对比:LLMs的信念一致性显著高于人类(人类校园场景选择信念相似者的比例为0.2-0.4,实地场景为0.58-0.62,而LLMs均≥0.5且多数场景接近1.0),呈现“放大的信念一致性”。
- 消融实验:将种族替换为年龄、性别、人工分组等人口统计学属性,或用民主党/共和党政治身份替换通用信念,LLMs仍表现出高信念一致性,且政治信念一致性优先级高于种族。
3. 信念一致性对下游任务的影响
3.1 虚假信息传播
- 实验设计:构建同质性(全民主党/全共和党)智能体群体,让其对政治相关的真实/虚假信息进行四轮交互评估,对比交互前后的正确性率变化。
- 结果:所有LLM在交互后正确性率均下降,表明信念一致的群体易形成“回音室”,加剧虚假信息传播;共和党身份智能体的正确性率普遍低于民主党,反映LLMs中存在政治偏见差异;gpt-35在LIAR数据集表现最优,开源模型在Fake News数据集更具优势。
3.2 LLM学习
- 实验设计:智能体需完成“Merlin模式识别”(无意义抽象模式)和政治信念识别两阶段学习,随后在“相似-准确”“相似-不准确”“相异-准确”“相异-不准确”四类信息来源中选择参考对象,评估信念一致性对学习决策的影响。
- 结果:LLMs倾向于选择信念相似的来源(比例≥70%),即使该来源的模式识别准确性更低;选择信念相似来源后,智能体的置信度提升比例显著高于选择相异来源,表明信念一致性会干扰非政治任务的学习判断力,与人类类似的“认知溢出”现象一致。
4. 信念一致性的缓解策略
4.1 接触假设理论
- 实施方式:在虚假信息传播任务中,将同质性群体替换为异质性群体(2名民主党+2名共和党智能体),通过跨信念交互提升视角多样性。
- 结果:异质性群体的正确性率显著高于同质性群体,证明跨信念接触能有效抑制虚假信息传播,但该策略不适用于无交互的LLM学习任务。
4.2 准确性提示
- 实施方式:在虚假信息传播的第一轮评估后,加入“优先验证信息真实性,避免政治身份影响判断”的提示;在LLM学习的来源选择阶段,提示“优先选择模式识别准确性更高的来源”。
- 结果:该策略对两项任务均有效,既能提升虚假信息识别的正确性率,又能降低LLMs对信念相似来源的偏好,同时提高选择相异来源后的置信度提升比例,是适用性最广的缓解策略。
4.3 全球政治公民框架
- 实施方式:通过系统提示赋予智能体“跨政治立场包容”的属性(如“能共情不同政治信仰者”“重视跨信念协作”等20项核心特质),初始化时融入政治公民身份认知。
- 结果:在虚假信息传播任务中表现最优,显著提升所有LLM的正确性率;但对LLM学习的缓解效果有限,仅部分模型(如llama-3)的相异来源置信度提升比例有所改善。
5. 相关工作
- 信念一致性理论:回顾了该理论的核心观点(信念对齐优先于群体归属)及相关争议(如在制度化偏见场景中的适用性限制),强调其在群体行为研究中的基础地位。
- 多智能体LLM交互:总结了LLMs在社会模拟、协作决策等领域的应用进展,指出当前研究对群体心理底层机制(如信念一致性)的探索不足,本文是首次系统性研究该主题的工作。
6. 经验教训与可行步骤
- LLM的信念一致性被放大,成为群体决策的主导因素,未来可进一步探索社会认同理论、现实冲突理论等其他群体心理学理论在LLMs中的表现。
- 信念一致性对社会影响类任务(如虚假信息传播)和学习类任务均有显著影响,未来需研究信念多样性对LLM韧性的提升作用,以及在心理健康等领域的潜在积极应用。
- 缓解策略需按任务定制:全球政治公民框架适用于虚假信息传播,准确性提示适用于LLM学习,未来可开发通用型策略和任务专属策略。
7. 结论
本文证实LLMs存在比人类更强的信念一致性,该特性会加剧虚假信息传播并阻碍学习;提出的三种基于社会心理学的策略有效缓解了这些负面影响;通过整合心理学与AI,为多智能体LLM的交互设计和偏差治理提供了新视角,并开源了实验框架以支持后续研究。
8. 局限性与伦理考虑
- 人类行为模拟简化:基于单一经典实验,未完全复现人类信念系统的社会文化、情感等复杂影响因素。
- 任务通用性有限:仅聚焦两项下游任务,信念一致性在其他领域(如心理健康)可能存在积极作用。
- 跨文化适用性不足:研究基于美国政治语境,未考虑不同文化中信念一致性的差异。
- 伦理风险:信念一致性模拟可能放大LLMs固有偏见,且LLM决策过程的透明度不足,缓解策略可能对模型其他领域的有效性产生潜在影响。