The Illusion of Randomness: How LLMs Fail to Emulate Stochastic Decision-Making in Rock-Paper-Scissors Games?
The Illusion of Randomness: How LLMs Fail to Emulate Stochastic Decision-Making in Rock-Paper-Scissors Games?
论文概览
本文假设大型语言模型(LLMs)在随机决策中存在“认知-行为差距”(能准确阐述混合策略纳什均衡的均匀分布,却无法在实际选择中践行),且该差距由预训练内在偏差和位置偏差共同导致;通过评估20个最先进LLMs在剪刀石头布(RPS)、语义无关变体及多选项游戏中的表现,结合总变差距离(TVD)量化偏差,发现预训练内在偏差(词频、语义)不足以解释差距,位置偏差是关键影响因素,不同LLM呈现独特位置偏好;最终结论为需创新方法弥合LLMs战略推理与随机决策的鸿沟,现有多选项问题(MCQ)去偏方法无效。
核心问题
LLMs虽能在理论层面准确识别混合策略纳什均衡(如RPS中需以1/3概率选择石头、剪刀、布),但实际决策时的动作分布系统性偏离该均匀分布,即存在“认知-行为差距”;需明确该差距的核心成因,以及如何有效缓解这一缺陷以提升LLMs在随机决策场景中的可靠性。
主要贡献
- 系统验证了认知-行为差距的普遍性:对20个SOTA LLMs(含GPT-4.5、Claude-3.7、Gemini等)的实验表明,几乎所有模型均存在“能阐述均衡却无法践行”的现象。
- 否定了单一预训练内在偏差的解释力:提出语义无关范式(用随机10字符字符串替代动作标签),证明词频、语义等预训练内在偏差并非差距的唯一成因。
- 首次分离并量化纯粹位置偏差:发现LLMs在随机决策中存在显著位置偏好(如o1偏好首个选项、DeepSeek-V3偏好中间选项),且该偏差在语义无关和多选项场景中仍持续存在。
- 揭示位置偏差的核心机制:多选项游戏(n=4-7)实验表明,位置偏差源于绝对位置而非相对顺序,且模型规模扩大无法缓解该偏差。
- 指出现有去偏方法的局限性:验证MCQ领域的Grey-Box Probability Weighting和Auxiliary Option Injection方法对随机决策场景无效,提出2类潜在缓解方向。
研究方法
- 实验对象:20个SOTA LLMs,涵盖GPT系列、Claude系列、Gemini、LLaMA-3、DeepSeek等主流架构,包括长链推理(CoT)模型(如o1、DeepSeek-R1)。
- 核心任务设计:
- 基础任务:经典RPS游戏,均衡策略为P(R) = P(P) = P(S) = 1/3;
- 语义无关任务:用随机非可发音字符串(如orxtlwsjuf)替代“石头/剪刀/布”,保留 cyclic 规则和均衡要求;
- 多选项任务:扩展至n=4-7个选项的 cyclic 游戏,均衡策略为Pi = 1/n。
- 评估指标:总变差距离(TVD)$\delta(P^*, \hat{P}_M)=\frac{1}{2}\sum_{A \in S}|P^*(A)-\hat{P}_M(A)|$,取值范围[0, 1],0表示完全符合均匀分布,值越大偏差越显著。
- 实验控制:每个任务进行100次独立试验(验证100次样本量足以表征分布),固定参数temperature = 1、top − p = 1,关闭重复惩罚,消除上下文干扰。
各章节详解
1. 引言(Introduction)
- 背景:LLMs在数学游戏、谈判模拟等战略推理任务中表现突出,但在抛硬币、掷骰子等简单随机任务中存在决策偏差,即使明确尝试逼近混合策略纳什均衡,偏差仍持续存在(如GPT-4在RPS中67%选择石头,远超理论33%)。
- 核心概念:定义“认知-行为差距”为LLMs“已知的理论分布”与“实际的决策分布”不一致的现象,并通过足球点球大战案例说明该差距对实际应用(如具身智能代理)的负面影响。
- 研究动机:现有研究仅覆盖少量模型,未系统分离预训练偏差与其他混淆因素,需全面评估并明确偏差成因。
2. 相关工作(Related Work)
- LLMs随机生成缺陷:现有研究证实LLMs在骰子滚动、二进制序列生成等任务中偏离随机分布,且在RPS、匹配硬币等博弈场景中存在认知-行为差距。
- 偏差解释的现有观点:部分研究认为差距源于预训练语料的词频偏差(高频词更易被选择),另一部分关注位置偏差(LLMs偏好提示中特定位置的选项),但现有研究未分离两类偏差的独立影响。
- 现有去偏方法局限:针对MCQ任务的去偏方法(如概率校准、辅助选项注入)假设存在“唯一正确答案”,不适用于RPS等所有选项均有效的随机决策场景。
3. 背景(Background)
- 3.1 剪刀石头布游戏:定义游戏策略空间S = {ℛ, 𝒫, 𝒮},规则为 cyclic 克制(ℛ胜𝒮、𝒮胜𝒫、𝒫胜ℛ),唯一混合策略纳什均衡为各动作选择概率Pi = 1/3。
- 3.2 随机过程评估:通过线性归一化处理无效动作,采用TVD指标量化实际分布P̂M与理论分布P*的偏差,TVD取值范围在RPS场景中为[0, 2/3]。
4. 实验(Experiment)
- 4.1 实验设置:详细列出20个测试模型,说明实验参数(temperature = 1等)、独立试验次数(100次)及API使用规范,验证100次样本量足以表征模型决策分布。
- 4.2 认知-行为差距验证:所有LLM均能正确阐述RPS的均匀分布均衡,但实际选择中存在显著偏差(如GPT-o3-mini、Qwen-2.5-Max的TVD>0.6,近乎锁定单一动作),量化结果证实差距普遍存在。
- 4.3 内在偏差分析:通过公开语料库(COCA、C4等)分析发现“paper”词频最高,但多数LLM仍偏好“rock”,说明词频偏差不成立;语义无关范式中模型仍存在选择倾斜,证明语义关联也非唯一成因,内在偏差单独无法解释差距。
- 4.4 位置偏差验证:
- RPS场景:改变动作顺序(6种排列),模型选择分布随顺序变化(如GPT-4.5-preview会选择克制首个选项的动作);
- 语义无关场景:4个代表性模型(GPT-4o、o1等)在6种字符串排列中均呈现位置偏好(o1偏好首个选项、DeepSeek-V3偏好中间选项);
- 多选项场景:n>4时,模型放弃相对顺序偏好,转向绝对位置依赖(如GPT-4o仍倾向中间位置),证实位置偏差的核心作用。
- 4.5 支持实验:模型规模扩大(如LLaMA-3从8B到405B)不会缓解偏差甚至加剧;跨游戏(匹配硬币、Morra)、跨语言(英、中、日)、跨温度设置均存在差距,且人类认知偏差(性别、年龄)会通过预训练语料影响LLM决策。
5. 讨论(Discussion)
- 现有去偏方法无效:将MCQ领域的GBP和AOI方法适配到RPS场景,发现前者导致部分模型偏差扩大,后者仅对少数模型轻微有效,均无法实现均匀分布。
- 潜在缓解方向:1)语言化概率校准(VPC):引导模型输出概率向量并进行后处理校准,使期望趋近1/n;2)测试时位置检索:通过小型标注集调整选项顺序,降低位置敏感性。
6. 结论(Conclusion)
总结LLMs随机决策偏差的两大来源:预训练内在偏差(倾向高频或语义显著选项)与位置偏差(受提示中选项排列影响),二者共同导致认知-行为差距;指出开放挑战为如何在黑盒约束和实际成本下,使LLMs实现稳健的随机决策。
局限性与风险
- 局限性:实验聚焦RPS类简单对称游戏,未覆盖连续动作空间、不完全信息等复杂场景;静态单轮实验无法模拟多轮自适应互动;未包含小众架构和小参数模型;缺乏具体技术解决方案。
- 风险:位置偏差可能被对手逆向工程(如操纵谈判选项顺序),且易被误判为语义偏好,导致缓解方向偏差。