PROGRAMMABLE COGNITIVE BIAS IN SOCIAL AGENTS

PROGRAMMABLE COGNITIVE BIAS IN SOCIAL AGENTS

NOTE

很全面的建模了如何量化地在提示词修改、引导向量注入、微调三个层次来调整模型的表现,很有借鉴意义。其主要场景是刻画模型在心理学表现上是否更准确。

论文概览

本文假设传统隐式自然语言描述无法让LLM-based社会代理产生跨模型一致、精准可控的认知偏差行为,提出了基于经典社会实验的CoBRA工具包(含认知偏差指数与行为调节引擎),通过试点实验、技术基准测试和情绪传染模拟实验验证,结果表明CoBRA能以模型无关的方式精准编程社会代理的认知偏差,最终得出CoBRA为社会科学模拟提供了可重复、可控的代理行为规范工具的结论。

核心问题

传统LLM社会代理依赖隐式自然语言描述指定行为,存在两大关键缺陷:一是相同描述在不同基础模型、采样温度或推理模式下产生不一致行为;二是无法可靠复现目标认知偏差(如经济学家应比普通人更少受框架效应影响的现实规律),导致社会模拟结果缺乏严谨性和可重复性。

主要贡献

  1. 首次通过实证实验证明,隐式自然语言描述这一主流代理规范方法,无法产生跨模型可靠、可重复的行为。
  2. 提出CoBRA工具包,将认知偏差视为可编程特征,实现对社会代理认知偏差的显式、定量控制,提升模拟的可重复性。
  3. 设计闭环系统原语,以经典社会实验为基础,同时实现认知偏差的测量与调节,为代理行为规范提供结构化依据。
  4. 通过技术基准(跨模型、温度、推理模式的稳定性)和情绪传染实验案例,验证了CoBRA诱导的偏差可跨任务泛化,为可控社会模拟奠定基础。

研究方法

  1. 试点实验:基于亚洲疾病研究(框架效应经典实验),设计人格型(普通人事、经济学家)和角色型(教师)代理规范,在4个基础模型上测试行为一致性,验证传统方法的局限性。
  2. CoBRA工具包构建:
    • 认知偏差指数(CBI):基于8个经典社会实验范式,量化4类核心认知偏差(权威效应、从众效应、确认偏误、框架效应),采用5点李克特量表计算偏差得分。
    • 行为调节引擎:通过输入空间的提示词数值控制、激活空间的表征工程、参数空间的微调,实现对代理偏差的精准调节。
  3. 技术基准评估:在8个模型(4个开源、4个闭源API)上,测试可重复性(跨模型、温度、推理模式)和可控性(单调性、平滑性、表达性)。
  4. 案例演示:利用CoBRA编程从众效应偏差,模拟情绪传染实验,验证偏差对涌现社会行为的可预测影响。

各章节详解

1 INTRODUCTION(引言)

  • 核心背景:LLM-based社会代理已成为社会科学模拟的重要工具,但其行为规范依赖隐式自然语言描述,缺乏对可靠性和可重复性的实证验证。
  • 关键问题:传统方法难以保证代理行为在不同模型、参数设置下的一致性,且无法精准呈现目标认知偏差,导致模拟结论多为定性印象。
  • 研究目标:提出CoBRA工具包,解决代理认知偏差的显式编程与跨场景稳定性问题。
  • 可信代理:LLM-based可信代理通过自然语言角色描述实现社会模拟,但存在行为不可控问题,难以满足社会科学研究的严谨性要求。
  • 可重复性挑战:不同LLM的训练数据、架构差异,以及采样温度、推理模式等参数,导致传统方法的模拟结果难以复现。
  • 经典社会实验:为认知偏差提供了结构化、经验证的测量范式(如亚洲疾病研究、阿希线段实验),是CoBRA的核心理论基础。

3 UNDERSTANDING AGENT SPECIFICATION(代理规范的局限性验证)

  • 实验设计:采用亚洲疾病研究范式,测试人格型(普通人事、经济学家、无描述)和角色型(教师、无描述)两类代理规范,覆盖4个基础模型,每个场景重复150次查询。
  • 核心结果:①相同规范在不同模型间行为不一致(如Mistral 7B倾向正向框架,Gemma2 9B更中立);②目标认知偏差未实现(如经济学家代理的框架效应比普通人更强,教师代理受框架影响偏向正向答案)。

4 DESIGN OVERVIEW(CoBRA设计概述)

  • 设计目标:
    • 可重复性:跨模型、跨采样温度、跨推理模式保持行为一致性;
    • 可控性:干预强度与偏差变化呈单调关系,调节平滑且支持偏差的抑制/放大。
  • 核心组件:认知偏差指数(CBI,负责测量)与行为调节引擎(负责调节),二者通过闭环逻辑实现精准控制。

5 COGNITIVE BIAS INDEX(认知偏差指数)

  • 定义:$CBI=\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{5}(5-j) × P_{i}\left(O_{j}\right)$,其中n为提示变体数量,Pi(Oj)为代理选择第j个选项的概率,得分范围0-4(得分越高偏差越强)。
  • 测试床设计:涵盖4类偏差、8个经典实验范式(每类偏差对应2个范式),通过场景可调占位符生成多样化提示,支持跨范式验证。
  • 扩展性:可新增认知偏差类型、实验范式或量化方法(如从自我报告扩展到行为测量)。

6 BEHAVIORAL REGULATION ENGINE(行为调节引擎)

  • 输入空间控制(提示词数值控制):通过“指定偏差水平(0%-100%,步长5%)”的显式数值指令,消除定性描述的模糊性,适用于API-only模型。
  • 激活空间控制(表征工程):通过双对对比样本提取纯净偏差向量,提供线性调节(ht = ht + λ ⋅ vbias)和投影调节(ht = ht + λ ⋅ |⟨ht, vbias⟩| ⋅ vbias),兼顾精准性与模型安全性。
  • 参数空间控制(微调):基于LoRA训练“正向/负向偏差模型”,通过任务向量(vtask = θpositive − θnegative)调节原始模型参数(θcontrolled = θoriginal + λ ⋅ vtask),实现持久化偏差控制。

7 TECHNICAL BENCHMARK(技术基准)

  • 实验设置:涵盖8个模型(4开源+4闭源),以单调性(NDCG、Spearman ρ)、平滑性(Δ1Δ2)、表达性(最大最小偏差差)为核心指标。
  • 关键结果:①偏差跨实验范式泛化(如投资/保险范式校准的控制系数可迁移至亚洲疾病范式);②跨模型、温度(0.1-1.0)、推理模式(直接/多步推理)保持高可重复性;③表征工程方法的可控性最优(NDCG≈1.0,Δ2最小),提示词控制适用于闭源API模型。

8 DEMONSTRATION(演示案例)

  • 实验设计:通过CoBRA编程5个不同从众效应水平(CBI=2.55-3.13)的代理,暴露于0-15条负面帖子,测量生成内容的情感得分。
  • 结果:CoBRA编程的代理呈现明显剂量-反应关系(从众效应越强,情绪传染越显著),而传统自然语言描述的代理行为无稳定差异,验证了CoBRA对涌现社会行为的可控性。

9 LIMITATION(局限性)

  • 可用性:尚未通过社会科学家的实际部署验证易用性;
  • 多模态适配:目前仅支持语言类社会模拟,未探索非语言行为(如哈欠传染)的偏差编程;
  • 复合偏差控制:未研究多偏差交互(如权威效应×确认偏误)的编程方法;
  • 偏差覆盖范围:当前仅支持4类核心偏差,需扩展更多类型。

10 FUTURE WORK(未来工作)

  • 开展用户研究,优化CoBRA的易用性与实际研究适配性;
  • 扩展多模态模拟,整合视觉、音频等非语言行为的偏差控制;
  • 开发复合偏差编程方法,解决多偏差冲突问题;
  • 新增光环效应、锚定效应等更多认知偏差类型及对应实验范式。

11 DISCUSSION(讨论)

  • 范式意义:CoBRA有望成为“自然语言编译器”,将模糊描述转化为结构化代理规范,降低非专家使用门槛;
  • 偏差再定义:将认知偏差从“AI缺陷”重构为“可编程特征”,既提升AI社会智能,又为社会科学研究提供可控实验工具;
  • 伦理考量:需建立偏差披露、行为审计机制,避免CoBRA被用于误导性营销、政治宣传等有害场景。

12 CONCLUSION(结论)

CoBRA通过认知偏差指数(基于经典社会实验的量化测量)与行为调节引擎(跨输入/激活/参数空间的精准调节),解决了传统方法的一致性与可控性难题,实现了模型无关的认知偏差编程。技术基准与情绪传染案例验证了其在社会模拟中的可靠性,为社会科学理论测试、敏感行为研究提供了全新工具,推动LLM-based社会模拟向严谨、可重复的科学研究范式演进。