SHARP: Unlocking Interactive Hallucination via Stance Transfer in Role-Playing LLMs
SHARP: Unlocking Interactive Hallucination via Stance Transfer in Role-Playing LLMs
论文概览
本文基于社会心理学理论提出假设——角色扮演大语言模型(Role-Playing LLMs, RPAs)会像人类一样根据角色间亲密度动态调整立场(对高亲密度角色表现谄媚、对低亲密度角色表现对立),进而设计了一套捕捉该动态模式的新范式,构建了SHARP基准,通过多语言、多模型的广泛实验验证了“交互式幻觉”的普遍存在,证实了模型规模、语言文化、训练范式等影响因素,最终得出该范式有效且传统幻觉缓解方案面临新挑战的结论。
核心问题
现有角色扮演LLM的社交交互研究存在三大局限:一是忽视多角色互动中的动态幻觉现象,仅关注静态知识冲突类幻觉;二是评估基准泛化性差,难以适配不同世界观脚本;三是角色忠诚度判断隐含主观,缺乏明确、自动化的评估标准。本文旨在解决“如何精准捕捉RPAs在多角色互动中的动态立场转移模式”这一核心问题,填补现有研究对“交互式幻觉”定义与评估的空白。
主要贡献
- 首次明确定义“交互式幻觉”(基于立场转移的动态幻觉现象),并验证其在不同脚本、语言和骨干模型中的普遍存在。
- 提出一套通用、明确且自动化的评估范式,构建SHARP基准,可量化角色关系忠诚度(Character Relationship Fidelity, CRF)。
- 评估了5种主流多语言RPAs,从5个维度识别影响交互式幻觉的关键因素,为模型优化提供实证依据。
- 揭示了RPAs中“角色偏好优先于事实”的特性,对传统幻觉缓解方案提出新挑战,为下游角色扮演应用(如RPG游戏)提供理论支持。
研究方法
本文设计的评估范式包含三大核心步骤: 1. 数据构建:从常识知识图谱(ConceptNet-5.5)提取事实主张,通过添加否定词、替换反义词等规则转换半数为反事实主张,注入提问者观点作为幻觉因子; 2. 立场采集:选择脚本中主角及高频互动角色,让RPAs(及对应骨干模型)对其他角色的主张表态; 3. 自动化评估:对模型回答匿名化后,利用ChatGPT检测立场(经验证中英文任务准确率均超92%),基于Wiki和HPD规则映射角色亲密度并分配权重,通过设计的指标量化交互式幻觉与角色关系忠诚度。
各章节详解
1. 引言(Introduction)
- 研究背景:RPAs在ACGN、游戏等沉浸式场景中应用广泛,但其交互行为需贴合人类社交规律(如亲密度影响立场),而现有对齐技术(SFT、RL)导致的“对齐税”(幻觉)尚未被用于捕捉该社交模式。
- 核心动机:受社会交换理论和印象管理理论启发,人类社交行为依赖关系联结,RPAs若要实现高沉浸交互,需具备类似的动态立场调整能力,而这一能力尚未被系统评估。
- 研究目标:揭示RPAs的多角色互动模式,验证交互式幻觉的存在,构建通用评估基准,为RPAs的优化与下游应用提供支持。
2. 背景(Background)
2.1 幻觉的应用现状
现有幻觉研究多聚焦“知识冲突”(如时空跨越的静态幻觉),且认为幻觉仅可缓解不可消除;本文突破传统思路,将幻觉视为捕捉角色交互模式的工具,关注“多角色间基于关系的动态幻觉”(即交互式幻觉)。
2.2 交互式评估现状
现有评估基准(如HPD、SocialBench)存在泛化性差、判断隐含主观、依赖人工标注等问题;HPD依赖手动规则分配亲密度,SocialBench聚焦群体偏好,均无法满足多世界观、自动化、明确化的评估需求。
3. 方法论(Methodology)
3.1 理论假设
基于社会交换理论与印象管理理论,假设:RPAs中的主角会对高亲密度角色表现出谄媚行为(支持其主张,无论事实性),对低亲密度角色表现出对立行为(反对其主张,无论事实性)。
3.2 数据集构建
- 主张选择:从ConceptNet-5.5提取1153条常识主张,涵盖自然科学、生物学等多领域,转换481条为反事实主张(添加绝对限定词减少歧义),并翻译为中英文双语。
- 角色选择:选取《哈利·波特》《天龙八部》《武林外传》等知名脚本,以主角为核心,筛选高频互动角色,按亲密度分为高、低两组(基于Wiki角色关系与HPD规则映射)。
3.3 评估协议
- 自动化机制:采用GPT-3.5-turbo进行立场检测,中英文任务准确率分别为94.11%和92.28%,确保评估可靠性。
- 匿名化策略:对模型回答中的角色名称匿名化,仅保留立场表达,避免评估者角色偏见,降低上下文token消耗。
3.4 指标设计
- 交互式幻觉定义:
- 滚雪球效应模式:以未对齐(或低幻觉)骨干模型的立场为伪标签,微调模型与骨干模型的立场转移即为幻觉(转向支持为谄媚,转向反对为对立)。
- 基于事实模式:以主张的事实性为基准(事实主张应支持,反事实主张应反对),立场偏离即为幻觉。
- 核心指标:
- 谄媚率(Sycophancy Rate, SR):反事实主张中表现谄媚立场的比例
$SR=\frac{\sum_{i=1}^{N_{counterfactual }} \mathbb{I}\left( stance _{i}= sycophancy \right)}{N_{counterfactual }}$ - 对立率(Adversary Rate, AR):事实主张中表现对立立场的比例
$AR=\frac{\sum_{i=1}^{N_{factual }} \mathbb{I}\left( stance _{i}= adversary \right)}{N_{factual }}$ - 角色关系忠诚度(Character Relationship Fidelity,
CRF):基于亲密度加权的综合指标(高亲密度角色对谄媚赋正权、对立赋负权,低亲密度角色反之)
CRF = ∑r(w1 ⋅ SR + w2 ⋅ AR),其中高亲密度时w1 = 1, w2 = −1,低亲密度时w1 = −1, w2 = 1 - 标准化CRF:消除脚本与角色数量差异的归一化指标
$Normalized\ CRF=\frac{\sum_{r}\left(w_{1} \cdot SR+w_{2} \cdot AR\right)}{N_{scripts } \cdot N_{roles }}$
- 谄媚率(Sycophancy Rate, SR):反事实主张中表现谄媚立场的比例
4. 实验(Experiments)
4.1 实验设置
- 流行模型:选取5种主流RPAs(CharacterGLM、ChatHaruhi等),覆盖中英文双语、不同骨干模型(ChatGLM、LLaMA等)。
- 对齐模型:基于Qwen1.5(无预对齐、多语言优势),控制训练/推理参数,探究5类影响因素(语言、模型规模、训练范式、多角色设置、推理范式)。
- 脚本与角色:选取《哈利·波特》《天龙八部》《武林外传》等知名脚本,按亲密度划分角色组。
4.2 核心结果与分析
- 立场转移验证:两种评估模式下,所有模型均表现出“高亲密度角色谄媚率更高、低亲密度角色对立率更高”的规律,证实交互式幻觉存在。
- 骨干模型vs微调模型:微调后的RPAs错误率普遍上升(除Pygmalion),因微调过程中角色风格学习模糊了预训练事实知识,为交互式幻觉提供了基础。
- 关键影响因素:
- 语言文化:中文模型对英文主张更谄媚、对立更少,反映中西方文化中保守性与批判性思维的差异;
- 模型规模:骨干模型规模越大,幻觉率越低;但微调后模型规模越大,谄媚率与CRF越高;
- 训练范式:小模型中LoRA/MoELoRA更利于捕捉角色关系,大模型中SFT的CRF提升更显著;
- 多角色设置:“逐一训练单角色”比“混合训练多角色”更利于角色关系区分,支持多智能体系统的应用潜力;
- 推理范式:RAG可降低谄媚率,但会提升对立率与错误率,大模型中效果减弱。
5. 讨论(Discussion)
5.1 事实性权衡
RPAs为贴合角色关系可能出现“愚蠢忠诚”(过度迎合角色而违背事实),即使注入事实性提示或采用SOTA激活编辑(如CAA),仍难以完全消除交互式幻觉,传统幻觉缓解方案因未考虑角色关系的隐含影响而效果有限。
5.2 细粒度应用
基于交互式幻觉的立场转移差值,可自动量化角色间亲密度评分,其结果与HPD手动评分的排序高度一致(如《哈利·波特》中赫敏>罗恩>邓布利多>斯内普>马尔福),适用于动态变化的角色扮演场景(如RPG游戏亲密度系统)。
6. 结论(Conclusion)
本文提出的交互式幻觉评估范式与SHARP基准,首次实现了对RPAs角色关系忠诚度的通用、自动化量化,验证了交互式幻觉的普遍性与稳定性,揭示了影响该现象的关键因素,并为下游沉浸式角色扮演应用提供了新的评估工具与优化方向。
局限性(Limitation)
- 实验规模:脚本与角色数量受成本限制,模型训练规模受设备约束;
- 交互行为复杂度:未覆盖“傲娇”等复杂性格的角色互动模式,纯数据驱动的微调易导致行为模式单一;
- 常识例外:部分常识主张存在小众科学例外,可能影响模型立场判断,但不影响核心结论。