Can Large Language Model Agents Simulate Human Trust Behavior?
Can Large Language Model Agents Simulate Human Trust Behavior?
论文概览
本文假设大型语言模型(LLM)代理可模拟人类核心社交行为之一的信任行为,通过采用六种信任游戏变体、Belief-Desire-Intention(BDI)框架建模推理过程,并结合多种LLM与多样化角色设计展开实验,发现LLM代理普遍表现出信任行为,其中GPT-4与人类信任行为的行为一致性最高,且LLM代理的信任行为存在人口统计学偏差、偏好人类而非其他代理等内在属性,最终证实LLM代理(尤其是GPT-4)可有效模拟人类信任行为,为社会科学模拟、代理协作等领域提供新可能。
核心问题
- LLM代理是否会表现出可量化、符合理性的信任行为?
- LLM代理的信任行为(代理信任)与人类的信任行为(人类信任)是否存在行为一致性,能否用于模拟人类信任?
- LLM代理的信任行为具有哪些内在属性(如偏差、操纵性、受推理策略影响程度等)?
主要贡献
- 提出“行为一致性”概念,定义为LLM与人类在影响行为的因素(行为因素)和行为随时间的演变动态(行为动态)上的相似性,填补了现有对齐定义在行为层面的空白。
- 证实LLM代理在信任游戏框架下普遍表现出信任行为,且GPT-4的代理信任与人类信任具有高行为一致性,为LLM代理模拟人类信任行为及更复杂社交行为奠定基础。
- 系统探究了代理信任的内在属性,包括人口统计学偏差、对人类的信任偏好、更易被削弱而非增强的操纵特性,以及受推理策略的影响,深化了对LLM代理行为的理解。
- 讨论了研究发现对社会科学模拟、LLM代理协作、人机协作及LLM代理安全等领域的广泛意义,拓展了LLM代理的应用边界。
研究方法
- 实验框架:采用行为经济学中成熟的六种信任游戏变体(信任游戏、独裁者游戏、MAP信任游戏、风险独裁者游戏、彩票游戏、重复信任游戏)量化信任行为。
- 建模工具:通过BDI框架明确建模LLM代理的决策推理过程,验证行为的非随机性与理性。
- 实验对象:涵盖闭源与开源LLM,包括GPT-4、GPT-3.5系列、text-davinci-003、Llama2(7b/13b/70b)、Vicuna-v1.3(7b/13b/33b),设置温度为1以提升决策多样性。
- 角色设计:基于模板生成53种包含姓名、年龄、性别、职业等信息的多样化角色,贴合真实人类实验场景。
- 测试场景:设计四类场景探究内在属性,包括改变受托人人口统计学特征、区分受托人是人类还是LLM代理、添加“需信任”/“不可信任”的外部操纵指令、对比直接推理与零样本思维链(CoT)推理策略。
各章节详解
1. 摘要与引言
- 核心背景:LLM代理被广泛用于社会科学模拟与角色扮演,但“能否真正模拟人类行为”这一基础假设未被充分验证,而信任是人类社交中关键且基础的行为,是探究该假设的理想切入点。
- 核心定义:信任被定义为基于对他人的积极预期,愿意将自身利益置于风险之中的意图,其在日常沟通、经济政治制度等场景中至关重要。
- 研究目标:明确LLM代理是否表现出信任行为、与人类信任的行为一致性如何,以及其内在属性,为更复杂的人类行为与社会模拟铺路。
2. LLM Agents in Trust Games
2.1 信任游戏变体
- 六种游戏围绕“信任方(发送资源者)”与“受托方(接收并可能返还资源者)”的互动设计,核心差异在于受托方是否可
reciprocate(互惠)、风险概率、是否重复互动等:
- 信任游戏:信任方发送N美元,受托方获3N美元后可返还部分;
- 独裁者游戏:受托方无法返还,仅信任方决定发送金额;
- MAP信任游戏:信任方需选择是否信任,受托方信任概率为p,需确定最小可接受概率p;
- 风险独裁者游戏:受托方无选择权,资源分配完全依赖概率p;
- 彩票游戏:含“人类互动”(受托方信任概率p)与“纯赌博”(中奖概率p)两个子游戏,p设为46%;
- 重复信任游戏:同一双方多轮互动,每轮初始资源重置。
2.2 LLM代理设置
- 基于CAMEL框架搭建实验,通过多样化角色模拟人类个体差异,利用BDI框架让代理输出“信念(对场景与他人的认知)-欲望(目标诉求)-意图(决策依据)”,以解析决策背后的理性推理过程。
3. Do LLM Agents Manifest Trust Behavior?
- 核心指标:采用有效响应率(VRR)衡量代理对“发送金额不超过初始10美元”的理解程度,VRR为符合该条件的角色占比;同时通过BDI验证决策的理性。
- 关键发现:
- 除Llama-7b外,多数LLM的VRR较高,表明其理解实验规则;
- 所有LLM的发送金额以正数为主,体现信任倾向;
- BDI输出可清晰解释发送金额差异(如高信任角色强调“人性本善”,低信任角色提及“未知风险”),证明决策非随机,具备理性。
- 辅助分析:Vicuna-7b信任水平最高,GPT-3.5-turbo-0613最低;GPT-4与Vicuna-7b的平均发送金额高于人类的5.97美元,部分LLM则低于该值;Llama2-70b/13b的发送金额分布更集中,人类与Vicuna-7b则更分散。
4. Does Agent Trust Align with Human Trust?
4.1 行为一致性定义
- 区别于聚焦安全性与有用性的传统对齐定义,行为一致性关注“行为因素”(影响信任的核心变量)与“行为动态”(多轮互动中的行为模式)两方面的人类-LLM相似性。
4.2 行为因素验证(三大核心因素)
- 互惠预期:人类在信任游戏中发送金额(6.0美元)高于独裁者游戏(3.6美元),GPT-4表现出相同趋势(6.9美元 vs 6.3美元,p = 0.05),且BDI中信任游戏强调“互惠预期”,独裁者游戏聚焦“公平”,而小参数LLM无此差异;
- 风险感知:人类信任率随风险降低(p升高)而提升,GPT-4的信任率曲线与人类最契合,BDI中高风险场景提及“风险过高”,低风险场景强调“构建信任”,小参数LLM未表现出风险敏感性;
- 亲社会偏好:人类在“人类互动型彩票游戏”中信任率(54%)高于“纯赌博型”(29%),GPT-4表现更显著(72% vs 21%),BDI中体现“信任人类”优于“计算风险”的倾向,Vicuna-13b除外。
4.3 行为动态验证(重复信任游戏)
- 人类信任动态的三大模式:返还金额通常大于发送金额、“返还金额/3×发送金额”比值稳定(波动≤10%)、金额无频繁波动;
- GPT-4的16组实验中,87.50%、87.50%、100.00%分别符合上述三大模式,而GPT-3.5的符合比例仅为62.50%、56.25%、43.75%,表明强认知能力是实现人类-like行为动态的关键。
5. Probing Intrinsic Properties of Agent Trust
- 人口统计学偏差:多数LLM对女性受托人的发送金额高于男性(如GPT-4差值为0.55美元),对不同种族的信任也存在差异;
- 人类vs代理偏好:所有LLM对人类受托人的发送金额均高于对其他LLM代理(如Vicuna-33b差值为1.24美元),体现对人类的信任偏好;
- 可操纵性:仅GPT-4等少数LLM能同时响应“增强信任”与“削弱信任”指令,多数LLM更易被削弱信任(如text-davinci-003削弱时发送金额减少1.26美元),存在被恶意操纵的风险;
- 推理策略影响:零样本CoT推理会改变多数LLM的发送金额,但影响程度有限(如GPT-4仅增加0.02美元)。
6. Implications
- 人类模拟:为社会科学(如社会网络、制度模拟)与角色扮演(如冲突解决训练、虚拟课堂)提供实证支持,验证了LLM代理模拟人类核心行为的可行性;
- 代理协作:信任作为多代理系统协作的关键,研究发现可为设计信任依赖型协作机制、提升集体决策能力提供启发;
- 人机协作:LLM代理对人类的信任偏好为促进人机协作提供优势,但人口统计学偏差需警惕公平性风险;
- 代理安全:理解LLM代理的信任行为有助于最大化其社会价值,减少欺骗、操纵等潜在风险,助力人机和谐共存。
7. Conclusion
本文通过信任游戏与BDI框架,证实LLM代理普遍表现出信任行为,其中GPT-4与人类信任行为的一致性最高,同时揭示了代理信任的内在属性与广泛应用意义。研究不仅深化了对LLM与人类类比关系的理解,还为LLM代理在社会科学、协作系统等领域的应用开辟了新路径,未来可进一步探索复杂动态环境中的代理信任行为。