An Empirical Study of Group Conformity in Multi-Agent Systems

An Empirical Study of Group Conformity in Multi-Agent Systems

论文概览

本研究假设群体规模和智能水平会影响LLM(大语言模型)智能体的从众行为,通过模拟2500余次围绕5个社会争议话题的多智能体辩论,控制支持者与反对者的数量比例及智能水平(以模型参数规模为代理指标),发现中立智能体显著倾向于从众多数派或高智能体,且智能水平的影响大于群体规模,最终得出需通过政策促进LLM生成讨论的多样性与透明度以缓解偏见传播的结论。

核心问题

探究多智能体LLM系统中,中立智能体在社会争议话题的辩论互动中,其立场选择(从众行为)受哪些因素(群体规模、智能水平)驱动,以及该类从众行为是否会导致偏见放大,填补现有研究对LLM多智能体互动中社会争议话题相关偏见传播机制的探索空白。

主要贡献

  1. 首次实证验证LLM智能体的从众行为同时受群体规模(多数派效应)和智能水平影响,且高智能体的影响力可超越多数派的数量优势。
  2. 量化了群体规模与智能水平对从众行为的影响程度(智能水平效应量ηp2 ≈ 0.1665,大于群体规模的ηp2 ≈ 0.068),为理解多智能体话语动态提供数据支撑。
  3. 结合社会心理学中的群体极化、沉默螺旋等理论,定性分析了LLM多智能体辩论中的社会行为特征,为跨学科研究提供范例。
  4. 提出需通过政策干预促进LLM讨论的多样性与透明度,为缓解AI驱动的偏见传播提供实践指导。

研究方法

  1. 实验设计:分为实验A(测试群体规模和智能水平的主效应及交互效应)和实验B(固定智能水平,测试群体规模差异的影响),设置10种核心讨论场景,覆盖不同数量比例(1:1、1:2、2:1等)和智能组合(高-高、高-低、低-高)。
  2. 数据收集:选取5个社会争议话题(全民基本收入、性别工资差距、移民政策、教育公平、死刑),采用GPT、Claude、Qwen三大系列LLM构建支持者、反对者智能体,以GPT-4o作为中立智能体,共完成2000次实验A模拟和600次实验B模拟。
  3. 评估指标:采用从众率($CR=\frac{ProponentSupportedTurns}{TotalTurns}$)和完全从众比例($FCR=\frac{FullyProponentSupportedDiscussions}{TotalDiscussions}$)量化中立智能体的从众行为。
  4. 统计方法:通过卡方检验($\chi^{2}=\sum \frac{(O_{ij}-E_{ij})^{2}}{E_{ij}}$)验证群体差异显著性,采用双因素方差分析(Yijk = μ + αi + βj + (αβ)ij + ϵijk)及稳健替代方法(Welch ANOVA、Games-Howell检验)分析变量效应。

各章节详解

1. 摘要(Abstract)

核心提炼研究背景、目标、方法、结果与意义:背景为LLM多智能体系统模拟人类互动的能力提升,但社会争议话题相关偏见传播机制未被充分探索;目标是分析中立LLM智能体在争议话题辩论中的从众行为;方法是模拟2500余次辩论,控制群体规模和智能水平;结果是智能体存在显著从众行为,高智能体和多数派均有影响力,且智能水平作用更强;意义是强调需通过政策促进多样性与透明度以缓解偏见风险。

2. 引言(Introduction)

首先介绍LLM的技术进展及其在多智能体系统中的应用场景,指出偏见传播是核心挑战——现有研究多关注性别、种族等显性偏见,而多智能体互动中社会争议话题的偏见生成与传播尚未被深入研究。结合社会心理学中的群体从众、沉默螺旋等理论,提出本研究聚焦中立智能体的从众行为,探究群体规模和智能水平两大影响因素,明确研究假设与核心目标:揭示LLM多智能体的意见形成动态及其对公共话语的潜在影响。

3. 相关工作(Related Works)

分三大模块梳理现有研究: - 多智能体LLM:总结LLM在多智能体系统中用于任务协作、世界模拟、共识寻求等场景的研究,但指出缺乏从社会科学视角对群体从众偏见的探索。 - LLM中的偏见:回顾LLM因训练数据导致的社会偏见研究,包括偏见测量、基准数据集构建等,但强调现有研究未关注多智能体互动中的偏见演化过程。 - 群体动力学与从众:概述人类社会中多数派影响、群体极化、沉默螺旋等经典理论,为LLM多智能体系统的从众行为分析提供理论框架。

4. 实验设置(Experimental Setup)

4.1 目标与假设

明确三大研究假设:H1(智能体倾向于从众多数派)、H2(智能体倾向于从众高智能方)、H3(群体规模差异越大,多数派从众效应越强),并将智能水平操作化为模型参数规模(基于MMLU基准验证的大模型性能优势)。

4.2 实验设计

详细说明实验A和实验B的设计逻辑:实验A通过10种场景组合,分离群体规模和智能水平的影响;实验B通过扩大群体规模比例(1:2、1:4、1:8),验证规模差异的边际效应。为控制中立智能体的初始偏见,采用配对比较设计,确保基线偏见在各条件中均匀分布。

4.3 LLM智能体辩论系统设置

  • 讨论协议:每轮辩论包含3个回合,支持者与反对者各有3次发言机会,中立智能体在每回合结束后选择更具说服力的一方,记录三轮选择结果用于计算从众指标。
  • 智能体配置:支持者与反对者从GPT、Claude、Qwen系列中选取不同参数规模模型(大模型为高智能,小模型为低智能),中立智能体固定为GPT-4o,所有智能体温度系数设为0.7,响应长度分别限制为256词(辩论方)和1024词(中立方)。
  • 讨论话题:选取5个无明确对错、社会关注度高的争议话题,提供明确的支持者立场表述,确保辩论的合理性与针对性。

4.4 统计方法

详细说明卡方检验(验证分类变量独立性)和双因素方差分析(分析群体规模和智能水平的主效应与交互效应)的应用场景,以及当正态性或方差同质性假设不满足时的稳健替代方案,设定显著性水平α = 0.01

5. 讨论(Discussion)

5.1 群体规模与智能水平对从众的影响

验证三大假设均成立:H1(χ2 = 164.839p < 0.001)、H2(χ2 = 142.285p < 0.001)、H3(规模比例扩大时从众率稳步上升)。关键发现是智能水平的影响效应显著大于群体规模,且单个高智能体的影响力可超过多个低智能体的组合。

5.2 不同辩论话题的从众模式

所有5个话题的从众趋势一致,证明研究结果的泛化性。但存在话题特异性偏差(如死刑话题中中立智能体更倾向于反对立场),不过通过反向Prompt验证,确认该偏差不影响群体规模和智能水平的核心效应,说明观测到的从众行为是真实的群体影响动态而非Prompt artifacts。

5.3 定性分析

结合具体辩论案例,验证LLM多智能体互动中存在群体极化(多数派立场随辩论逐渐极端化)和沉默螺旋(少数派或低智能体主动表示“完全同意”以终止辩论)现象,与人类社会的群体动力学特征一致。

6. 结论(Conclusion)

总结核心发现:LLM智能体展现出与人类相似的从众行为,群体规模和智能水平均为关键驱动因素,且高智能体的影响力更显著。指出研究局限性:话题范围有限、仅关注LLM间互动(未考虑人类参与)、仅使用英语辩论可能引入文化偏差。提出未来研究方向:扩展话题与语言多样性、探索人类-AI互动中的从众动态、优化多智能体系统的偏见缓解机制。