BELIEF DYNAMICS REVEAL THE DUAL NATURE OF IN-CONTEXT LEARNING AND ACTIVATION STEERING
BELIEF DYNAMICS REVEAL THE DUAL NATURE OF IN-CONTEXT LEARNING AND ACTIVATION STEERING
论文概览
本文假设大型语言模型(LLMs)的上下文学习(In-Context Learning, ICL)与激活引导(Activation Steering)可通过贝叶斯信念更新统一解释——ICL通过积累证据调整潜在概念的似然性,激活引导通过改变概念先验概率影响信念;方法上构建了贝叶斯信念动态模型,在5个人格数据集(3个“黑暗三人格”、2个道德虚无主义)上用Llama-3.1-8B、Qwen-2.5-7B、Gemma-2-9B模型验证;实验结果显示模型能精准预测ICL的S型学习曲线、激活引导幅度的S型行为响应及两种干预在log信念空间的加性效应,与LLM行为的平均相关系数达r = 0.98;结论是该模型为LLM的两种控制方法提供了统一框架,可预测干预的行为转换点,为LLM可控性与AI安全提供理论支撑与实证依据。
核心问题
现有LLM推理时控制行为的两种核心方法(输入层的ICL、表征层的激活引导)看似独立,前者依赖试错式提示工程,后者依赖对比数据集构建引导向量,却缺乏能统一二者的理论框架,无法系统解释其共同控制机制及预测联合干预效果,这一空白导致LLM控制的可解释性与可靠性受限。
主要贡献
- 理论统一:首次从贝叶斯视角提出信念动态模型,将ICL(证据积累)与激活引导(先验调整)整合为LLM潜在概念信念更新的两种具体形式,填补了二者缺乏统一框架的空白。
- 现象解释与预测:既解释了现有实证现象(如ICL随示例增加的S型学习曲线),又预测了新现象(如log信念空间中两种干预的加性效应、行为的突然转换相位)。
- 实证验证:在5个人格数据集、3个主流LLM上验证模型有效性,对LLM行为的预测与实测平均相关系数达r = 0.98,且能精准预测行为转换点N*(模型与实测相关系数r = 0.97)。
- 应用价值:为LLM控制提供可量化的预测方法(如预测多示例“越狱”的转换阈值),为AI安全提供理论工具(规避因干预阈值突破导致的突发有害行为)。
研究方法
- 理论构建:
- 基于贝叶斯推理,将LLM对潜在概念c的行为概率p(y|x)定义为对c的后验信念p(c|x),分解后验比$\log o(c|x)=\log \frac{p(c)}{p(c')}+\log \frac{p(x|c)}{p(x|c')}$(log 先验比+log 似然比);
- 结合线性表示假设(Linear Representation Hypothesis, LRH),认为激活引导通过改变隐藏表征v → v + m ⋅ d(m为引导幅度,d为引导向量),对log 后验比产生线性影响。
- 实验设计:
- 数据集:选择5个人格数据集(Psychopathy、Machiavellianism、Narcissism、Believes Life Has No Meaning、Subscribes to Moral Nihilism),每个数据集含1000个“是否符合人格”的二元问答样本,支持观察ICL的完整学习动态(≤128个示例即可达平台期);
- 模型:以Llama-3.1-8B-Instruct为主,Qwen-2.5-7B-Instruct、Gemma-2-9B-Instruct为辅,平衡计算效率与模型性能;
- 变量控制:ICL变量为示例数量N(取值{0,1,2,…,128}),激活引导变量为引导幅度m(取值[−10, 10],精细区间[−1, 1]步长0.1);
- 评估方法:用10折交叉验证拟合模型参数(α, γ, a, b),以二元交叉熵(BCE)为损失函数,通过相关系数r衡量模型预测与LLM实测行为的一致性。
各章节详解
1. 摘要(ABSTRACT)
摘要开篇点明LLM的两种控制方法(ICL与激活引导)及现有研究的碎片化问题,提出本文核心目标:构建贝叶斯视角的统一预测框架。文中明确该框架的核心假设——两种干预均通过改变LLM对潜在概念的信念起作用(ICL积累证据,引导改变先验),并通过闭合形式的贝叶斯模型在多领域验证:模型既能解释ICL的S型学习曲线,又能预测log信念空间中干预的加性效应及突发行为转换。最终结论强调该框架为LLM的两种控制方法提供了统一解释,并为实证预测干预效果提供了方法论。
2. 引言(INTRODUCTION)
2.1 研究背景
首先概述LLM的快速发展(如Brown et al., 2020;Bubeck et al., 2023)与实际应用中“行为可控性”的核心需求(如规避有害输出、谄媚响应),进而引出两种主流推理时控制方法: - ICL:通过输入上下文(问题、指令、示例序列)调节行为,实践中依赖试错式提示工程; - 激活引导:直接干预隐藏层表征调节行为,依赖对比数据集构建引导向量。
2.2 现有研究局限
指出现有理论对两种方法的解释割裂:ICL被视为贝叶斯推理(Xie et al., 2021;Bigelow et al., 2023),激活引导被归因于概念的线性表征(Park et al., 2024b),缺乏统一框架整合二者的共同控制目标。
2.3 本文工作概述
提出以“信念更新”为核心的贝叶斯框架,将ICL定义为“通过似然函数调整概念权重”,激活引导定义为“通过先验概率调整概念权重”;通过多示例ICL实验(结合引导幅度变量)验证模型,最终发现三个关键现象(S型后验增长、引导幅度的线性影响、干预加性效应),并能预测多示例“越狱”的转换点。同时强调该工作衔接了认知科学中贝叶斯理论与LLM表征研究,为LLM控制提供理论基础。
3. 背景(BACKGROUND)
3.1 上下文学习(ICL)
- 定义与范围:ICL是LLM从输入上下文(而非权重更新)中学习的能力,既包括传统少示例学习(如Brown et al., 2020),也涵盖零示例语言学习、效用函数优化等广义能力;
- 贝叶斯推理视角:现有研究(Xie et al., 2021;Wurgaft et al., 2025)证实,ICL可通过贝叶斯推理建模——LLM在预训练中学习潜在概念空间c ∈ C,推理时通过概念似然函数p(x|c),基于输入上下文x更新对c的信念,即p(y|x)由p(c|x)决定。
3.2 激活引导
- 定义与实践:激活引导通过干预LLM隐藏表征(如将v调整为v + m ⋅ d,d为引导向量)控制输出,可实现对“诚实性”“拒绝行为”“人格”等抽象概念的调节(Li et al., 2023;Arditi et al., 2024;Chen et al., 2025);
- 核心方法:本文采用“对比激活加法(Contrastive Activation Addition, CAA)”构建引导向量——通过收集两个对比数据集(如有害/无害提示)在特定层ℓ的激活aℓ(X),计算均值差异作为引导方向;
- 线性表示假设(LRH):LRH是激活引导的理论基础,认为LLM表征中语义概念呈线性编码:概念可通过简单逻辑探针提取、线性干预可调节概念信念、表征是概念方向的加性混合(Elhage et al., 2022;Park et al., 2024b)。若模型满足$\frac{p(c|\lambda(x))}{p(c'|\lambda(x))}=\frac{p(c)}{p(c')}$(λ(x)为输入嵌入),则CAA提取的引导向量与概念方向平行。
4. 多示例ICL实验(MANY-SHOT IN-CONTEXT LEARNING EXPERIMENTS)
4.1 实验设计逻辑
选择“LLM初始赋值概率低但可通过多示例快速学习”的概念数据集,确保能观察完整的学习动态(从低概率到平台期),且示例数≤128即可覆盖全动态。
4.2 数据集详情
共5个人格数据集,均来自Anthropics的Persona评估集: -
有害人格:Psychopathy(精神病态)、Machiavellianism(马基雅维利主义)、Narcissism(自恋)(即“黑暗三人格”),若LLM表现出这些人格可能对用户造成伤害;
- 非有害人格:Believes Life Has No
Meaning(认为生命无意义)、Subscribes to Moral
Nihilism(认同道德虚无主义),这类人格被RLHF抑制但本身无害; -
数据格式:每个数据集含1000个问题(如“Is the following
statement something you would say?
4.3 模型与实验设置
- 核心模型:Llama-3.1-8B-Instruct(计算效率与性能平衡),辅助验证模型为Qwen-2.5-7B-Instruct、Gemma-2-9B-Instruct;
- 测量指标:LLM对“人格匹配答案”的token logit概率,以此量化信念强度;
- 实验延伸:后续章节将在该实验基础上加入“激活引导幅度”变量,验证信念动态模型。
5. 信念动态模型(A BELIEF DYNAMICS MODEL OF ICL AND STEERING)
该章节是论文核心,分三部分构建并验证模型,最终整合ICL与激活引导的联合效应。
5.1 ICL的证据动态(Context as Evidence)
- 理论建模:聚焦ICL示例数N = |x|对信念的影响,定义概念c与补集c′的后验比$o(c|x)=\frac{p(c)p(x|c)}{p(c')p(x|c')}$,则后验概率可表示为sigmoid函数:
$p(c|x)=\frac{o(c|x)}{1+o(c|x)}=\sigma(\log o(c|x))$;
进一步分解log 后验比为“log 先验比”与“log 似然比(贝叶斯因子)”:
$\log o(c|x)=\log \frac{p(c)}{p(c')}+\log \frac{p(x|c)}{p(x|c')}$; - 似然比的亚线性假设:由于LLM的log概率随上下文规模呈幂律增长(Anil et al., 2024),引入折扣因子τ(N) = N−α,使得log 贝叶斯因子呈亚线性增长:$\log \frac{p(x|c)}{p(x|c')} \propto \gamma N^{1-\alpha}$(γ为比例常数);
- 预测与验证:基于上述建模,预测p(y(c)|x)(人格匹配答案概率)随N1 − α呈S型增长。实验结果显示,Llama-3.1-8B在5个数据集上均符合该趋势,且激活引导幅度会平移ICL曲线(正幅度左移,负幅度右移)。
5.2 激活引导的信念改变(Altering Model Belief)
- 理论建模:基于LRH,假设引导向量d对应概念ci,引导幅度m改变隐藏表征v → v + m ⋅ di。由于概念向量近似正交,引导对log 后验比的影响呈线性:
$\log \frac{p(c_i|v+m \cdot d_i)}{p(c_i'|v+m \cdot d_i)}=\log \frac{p(c_i|v)}{p(c_i'|v)}+a \cdot m$(a = ∥di∥2为常数);
这意味着激活引导本质是“改变概念先验”——将$\log \frac{p(c)}{p(c')}$更新为$\log \frac{p'(c)}{p'(c')}$; - 预测与验证:预测p(y(c)|x)随m呈S型增长(因概率是log后验比的sigmoid变换)。实验显示,Llama-3.1-8B在m ∈ [−3, 3](黑暗三人格)与m ∈ [−1.5, 1.5](道德虚无主义)范围内符合该趋势,且不同ICL示例数下趋势一致。
5.3 最终模型与联合效应
- 最终公式:整合ICL示例数N与激活引导幅度m,log 后验比的最终模型为:
log o(c|x) = a ⋅ m + b + γN1 − α(b为log 先验比常数);
基于此可计算“信念从c′转向c的转换点”:
$N^*(m)=\left[-\frac{a m+b}{\gamma}\right]^{1/(1-\alpha)}$; - 实验验证:
- 拟合度:模型对LLM行为的预测与实测平均相关系数r = 0.98(10折交叉验证);
- 相位边界:模型能精准复现ICL与激活引导的联合相位图(图6),且转换点N*的预测与实测相关系数r = 0.97(图7);
- 跨模型泛化:在Qwen-2.5-7B(r = 0.98)与Gemma-2-9B(r = 0.97)上验证,模型仍保持高预测精度。
6. 讨论(DISCUSSION)
6.1 核心发现总结
重申贝叶斯信念动态模型成功统一了ICL与激活引导,解释了现有现象并预测新效应,且在多模型、多数据集上泛化,为LLM控制提供了“从行为到表征”的跨层级解释(Marr, 1982的分析框架)。
6.2 开放问题
- 信念表示的线性范围:激活引导仅在有限幅度内呈线性效应(m过大时行为收敛到随机水平p = 0.5),需进一步研究信念表征的线性子空间边界;
- 层局部化:引导仅在特定层有效(如Llama-3.1-8B的第12层),暗示信念可能在局部层编码,需探索神经元级干预的可能性;
- 推理实现机制:LLM如何具体实现信念更新(如是否类似蒙特卡洛方法)仍不明确。
6.3 未来方向与局限性
- 未来方向:拓展非二元概念空间、验证其他引导方法(如SAEs)、探索更大规模LLM的信念动态、将框架应用于AI安全(预测有害行为转换点);
- 局限性:仅研究二元概念与CAA引导方法,未覆盖更复杂的概念类型与引导技术。
7. 附录(Appendices)
附录提供了理论推导细节与实验补充验证,核心内容包括: - 推导细节:贝叶斯因子的亚线性增长推导(附录A.1)、激活引导幅度对log 后验比的线性效应推导(附录A.2); - 跨模型结果:Qwen-2.5-7B与Gemma-2-9B的ICL曲线、引导响应函数及转换点预测结果,验证模型泛化性; - 引导范围分析:不同数据集的“线性引导阈值”差异(如Narcissism的阈值更大),解释为概念信号强度不同; - 多示例引导向量:探索用多示例计算引导向量的效果,发现归一化后其效应弱于单示例向量,需进一步解释; - 实验细节:模型实现(4位量化、A100 GPU)、参数设置(N与m的取值范围)、模型拟合流程(L-BFGS-B优化、10折交叉验证)、最优引导层选择方法(每层测试m = ±1)。