Can Role Vectors Affect LLM Behaviour?
Can Role Vectors Affect LLM Behaviour?
NOTE
有代码https:// github.com/Crisp-Unimib/Role-Vectors.
论文概览
本文假设通过操纵大型语言模型(LLMs)内部激活空间中的角色向量可定向引导模型行为,提出了基于均值差法构建角色向量并通过激活添加和定向消融两种干预方式验证其效果的方法,实验结果表明角色向量能显著提升模型领域内任务性能并产生跨领域增益,且比传统基于角色的提示更有效,最终证实了操纵模型内部表示对引导LLM行为的重要作用,支持了线性表示假设。
核心问题
- 能否在LLM的激活空间中识别出特定的潜在角色方向(编码为角色向量),并利用这些向量提升客观任务性能?
- 提升性能的角色方向是否能有效模拟目标角色的特征?
- 若移除这些角色方向,模型的性能是否会受到损害?
主要贡献
- 提出了一种开源的角色向量构建方法,针对29个专业角色,捕获各领域特定知识与行为倾向,并在多个LLM上进行验证。
- 验证了角色向量对下游基准任务的影响,证实激活空间中明确的角色导向能提升模型领域特定任务性能。
- 与传统基于角色的提示技术(效果有限或负面)不同,角色向量激活能对LLM行为产生可量化的积极改变。
研究方法
- 角色选择与数据集生成:选取29个专业角色,从PersonaHub获取对应人格描述,参考Alpaca方法生成128条角色特定提示,同时引入128条通用提示作为基准数据集。
- 角色向量创建:采用均值差法,计算角色特定提示与通用提示在模型残差流激活上的均值差异,得到角色向量di, r(l) = μi, r(l) − νi(l)(其中μi, r(l)为角色提示的平均激活,νi(l)为通用提示的平均激活);采用两种干预方式:激活添加(x(l)′ = x(l) + αdi, r(l),α = 1)和定向消融(x′ = x − di, r(l)d̂i, r(l)x)。
- 评估方法:以MMLU基准为主要评估数据集(含8个领域2457个问题),采用70-30%的验证-测试分割,筛选出同时满足“激活添加提升性能、定向消融降低性能”的最优角色向量dr*;通过补丁范围法验证角色向量与目标角色的语义对齐性,额外在MedQA数据集上验证跨领域通用性。
各章节详解
1. 引言
本章首先介绍了基于角色的聊天机器人在商业和社会应用中的潜在价值,同时指出传统基于角色的提示技术在客观任务上效果有限(甚至负面)的研究背景。基于此,提出本文核心目标:通过修改模型内部机制而非提示工程来提升LLM性能,并明确了三个研究问题。最后概述了论文的核心贡献,为后续研究内容奠定基础。
2. 相关工作
- LLM中的角色与人格:探讨了提示工程对LLM性能的影响,但指出基于角色的提示存在鲁棒性差、机制不透明、可能引入偏差等问题,且无法持续提升客观任务性能。
- 机制可解释性与表示工程:基于“高层概念在激活空间中线性表示”的假设,介绍了激活引导、表示工程(RepE)等相关技术,重点讨论了均值差法在提取概念向量中的优势,以及现有方法在角色引导方面的不足,凸显本文研究的必要性。
3. 生成与评估角色向量
本章详细阐述了研究方法的三个核心环节。在数据集生成部分,明确了角色选择标准、提示生成模板及基准数据集的构建逻辑;在角色向量创建部分,给出了角色向量的数学定义和两种干预方式的具体公式,解释了超参数α的设置理由;在评估方法部分,说明了评估数据集的选择、最优角色向量的筛选标准、性能计算方式(基于logit的准确率)以及语义对齐性的验证流程,确保研究的可重复性。
4. 结果
- 模型选择与实验设置:选取7个开源LLM(包括Llama 3系列、Gemma 2、Qwen等不同参数规模模型),在超级计算机上完成约4500 GPU小时的实验,涉及21300万次推理。
- 核心结果:Gemma 2 9B模型表现出最强的跨模型一致性;最优角色向量在目标领域性能显著提升(如数学家角色在数学领域提升9.5%),且存在跨领域增益;MedQA数据集验证显示,5个医疗相关角色向量均提升了模型准确率(最高+5.7%);语义对齐性方面,越大规模模型的角色向量与目标角色的对齐比例越高(Gemma 2 9B达30%);定向消融实验表明,目标领域对应的角色向量被消融后,性能普遍下降(如数学家角色在数学领域下降25.0%)。
5. 讨论
- 角色向量的优势:与传统基于角色的提示(间接控制)相比,角色向量通过直接操纵内部激活实现控制,效果更稳定显著。
- 线性表示假设验证:角色向量的有效性支持了“高层概念在激活空间线性表示”的假设,简单的向量运算即可引导模型行为。
- 角色向量的语义对齐:部分角色向量虽能提升性能,但未完全对齐目标角色语义,且模型规模越大,语义对齐性越强,这与大模型表示的单义性提升有关。
- 消融效果分析:定向消融的异质性结果表明,模型激活空间中存在冗余成分,移除单一角色向量可能消除噪声,但小规模模型对消融更敏感。
6. 结论
总结本文核心发现:角色向量通过直接操纵LLM内部激活,可有效提升目标领域及部分跨领域任务性能,且模型规模和干预层深度对效果有显著影响。指出未来研究方向:进一步探索角色向量的作用机制,结合稀疏自编码器等技术开展因果中介分析,并关注潜在偏差与风险。
局限性
- 实验仅覆盖开源LLM,结果可能不适用于未测试模型(尤其是更大规模模型)。
- 未完全揭示角色向量影响模型行为的底层机制,语义解释存在不确定性。
- 角色向量可能导致无关任务性能下降,且存在强化偏差、提升领域过度自信的风险。