How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
EMNLP
1. 论文概览
- 核心问题:大型语言模型(LLMs)的安全对齐(Alignment)与越狱(Jailbreak)机制因模型“黑箱”特性难以阐明,需通过中间隐藏状态揭示LLM安全运行及越狱突破安全护栏的内在原理。
- 主要贡献:
- 发现LLMs的伦理概念学习发生在预训练阶段而非对齐阶段,且能在早期层区分恶意与正常输入;
- 阐明对齐的作用是将早期伦理概念与中期层情感猜测关联,并将其精炼为拒绝token,而越狱通过干扰该关联突破安全护栏;
- 提出Weak-to-Strong Explanation和Logit Grafting方法,在7B至70B规模的多模型家族上验证结论。
- 研究方法:采用弱分类器(SVM、单隐藏层MLP)分析中间隐藏状态(Weak-to-Strong Explanation);用Logit Lens转化隐藏状态为token以追踪层间变化;定义Top-K Intermediate Consistency量化中间层一致性;设计Logit Grafting近似越狱对关联阶段的干扰。
2. 各章节详解
2.1 Introduction(引言)
- 背景:LLMs在提供帮助的同时存在安全隐患,需通过对齐匹配人类价值观,但越狱会导致对齐失效并生成有害内容;由于LLM参数规模大(数十亿级),其对齐与越狱机制难以解释。
- 现有研究不足:此前研究发现对齐与基础模型的logits差异微小(多为风格化token,如免责声明),但这种微小差异如何实现安全防护仍不明确。
- 本文工作:
- 提出LLM安全由预训练与对齐协同保障;
- 用Weak-to-Strong Explanation验证:无论对齐/基础模型,弱分类器对早期层隐藏状态的恶意/正常输入分类准确率超95%,证明预训练阶段已学习伦理概念;
- 用Logit Lens发现:对齐模型在中期层将合规输入关联积极情感、不合规输入关联消极情感,最终精炼为风格化token(图1);基础模型无此情感关联。
- 实验数据:恶意数据集(advbench、strongreject、jailbreakbench)、正常数据集(GPT-4、Claude3-Opus生成),覆盖多领域。
2.2 Related Works(相关工作)
2.2.1 LLM Explainability(LLM可解释性)
- 模型规模扩大导致可解释性下降,但部分研究可揭示局部机制:如In-Context Learning中特定注意力头负责上下文理解;Logit Lens通过最终线性函数将中间层隐藏状态转化为logits,辅助追踪输出精炼过程;GPT-4等强模型可解释小模型的细粒度神经元。
2.2.2 LLM Safety(LLM安全性)
- 对齐:通过高质量数据微调预训练模型以拒绝有害查询,是主流安全手段(如RLHF);
- 越狱:存在手工与自动(如GCG、AutoDAN)两类方法,可突破安全护栏;
- 防御局限:现有防御多为被动响应(在越狱出现后设计),无法从根源解决问题。
2.3 Not Only Alignment: How LLMs Ensure Safety(不止对齐:LLM如何保障安全)
2.3.1 LLMs Learn Ethical Concepts During Pre-training Rather Than Alignment(LLM的伦理概念学习在预训练阶段)
- 关键定义:取每层隐藏状态的最后位置代表该层对输入的理解,公式为:
$$u_{l}=H_{l}[n] \in \mathbb{R}^{d_{model }}$$
其中$H_l$为第$l$层隐藏状态,$n$为序列长度,$d_{model}$为模型维度。 - Weak-to-Strong Explanation实验设计:
- 弱分类器:线性核SVM(默认参数)、单隐藏层MLP(100个神经元,基于sklearn);
- 模型选择:5个开源模型家族(Llama-2、Llama-3、Mistral、Vicuna、Falcon),覆盖7B-70B规模,含基础模型与聊天模型;
- 数据设置:从恶意/正常数据集中各随机选500样本,测试集占比0.3。
- 实验结果(图3、表2):
- 嵌入层分类准确率接近随机(~0.3),证明弱分类器无过拟合;
- 第0层后准确率达80%,早期层(如1-5层)后超95%;
- 基础模型与对齐模型的分类性能相近,证明伦理概念学习于预训练阶段。
2.3.2 Safety Alignment: Bridging Ethical with Positive and Unethical with Negative(安全对齐:连接伦理与情感)
- 中期层情感关联现象:
- 对齐模型在中期层(16-24层,40层模型为21-28层)生成粗粒度情感token(积极如“glad”,消极如“sorry”),后期层精炼为拒绝/响应初始token;
- 基础模型中期层无情感关联,仅生成无意义token(如“answer”“quelle”)。
- 量化指标定义:
- Top-K Guess:对输入$d$的第$l$层隐藏状态$u_l$,通过线性函数$F(\cdot)$映射为logits后,取Top-K token,记为$G_{l}^{d}=Top-K(F(u_l))$;
- Top-K Intermediate Consistency:衡量某层对不同输入的隐藏状态一致性,公式为:
- 计算token频率:$$f_{l}(t)=\sum_{d \in D} \mathbb{1}\left[t \in G_{l}^{d}\right]$$($\mathbb{1}[\cdot]$为指示函数,$D$为数据集);
- 取频率最高的$k$个token组成$T_l$,计算一致性:$$C_{l}=\frac{1}{k} \sum_{t \in T_{l}} \frac{f_{l}(t)}{N}$$($N$为样本数)。
- 实验结果(表1):
- 中期层一致性与模型安全性负相关:平均Top-5一致性与恶意输入ASR(攻击成功率)相关系数-0.516,与越狱输入ASR相关系数-0.810;
- 安全性差的模型(如Vicuna-7b-v1.5)中期层情感关联弱、一致性低;安全性强的模型(如Llama-2-13b-chat)则相反。
- 结论:对齐的核心作用是“桥梁”——连接早期层伦理特征与中期层情感token,再由后期层精炼为安全输出;预训练与对齐协同实现LLM安全。
2.4 How Jailbreak Causes LLMs Alignment to Fail(越狱如何导致LLM对齐失效)
2.4.1 Perturbations in Association Stage(关联阶段的干扰)
- 越狱输入生成:用GCG、AutoDAN、Deepinception三种方法构造越狱输入。
- 实验发现:
- 弱分类器对早期层“越狱/恶意/正常”三类输入的分类准确率高(表2),证明越狱无法欺骗预训练阶段的伦理判断;
- 中期层:越狱输入的情感模糊(如同时出现“Step”“Sure”等积极token与中性token,图6),干扰早期伦理概念与中期情感的关联;
- 有害输出条件:仅当积极情感完全主导中期层时,模型才会生成有害内容;若干扰不足,后期层会修正为拒绝响应。
2.4.2 Approximate to Jailbreak with Logit Grafting(用Logit Grafting近似越狱)
- 方法设计:将正常输入的中期层(如23层)隐藏状态(存在肯定性标记)“嫁接”到恶意输入的对应层,仅修改最后位置隐藏状态(最小化语义干扰),模拟越狱对关联阶段的干扰。
- 实验结果(表3):
- 嫁接后模型对恶意输入的ASR显著提升,部分模型(如Vicuna-7b-v1.5)的ASR超原生越狱;
- 对越狱输入进一步嫁接,可增强其攻击效果,证明越狱的核心是干扰“早期伦理-中期情感”关联,导致后期层无法精炼为拒绝token。
2.5 Conclusions(结论)
- LLM安全机制:预训练阶段学习伦理概念,早期层区分恶意/正常输入;对齐阶段将早期伦理特征与中期层情感猜测(积极/消极)关联;后期层将情感token精炼为拒绝/响应初始token。
- 越狱机制:不干扰早期层伦理判断,而是破坏“早期伦理-中期情感”的关联,导致安全护栏失效。
- 优化方向:LLM安全优化的核心目标应是强化中期层“非伦理-拒绝”的关联。
2.6 Limitations(局限性)
- 仅使用默认参数的简单弱分类器,未探索更复杂分类器的效果;
- 仅从安全角度用弱分类器解释强模型,未扩展到LLM的其他能力(如推理、生成)的可解释性研究。
2.7 Ethics Statement(伦理声明)
- 研究提升LLM安全透明度,不增强越狱有效性;
- Logit Grafting需白盒设置,仅用于验证结论,无潜在不良影响;
- 开源代码及正常/恶意数据集,不开源越狱数据集,避免滥用。
3. 整体评价
- 核心思想:论文通过弱分类器和Logit Lens揭示LLM安全的“预训练学伦理-对齐联情感-后期精炼token”三层机制,证明越狱通过干扰“伦理-情感”关联突破安全护栏,在多规模多模型上验证结论,为LLM安全优化提供明确目标。
- 未来方向:探索弱分类器在LLM其他能力(如数学推理、文本摘要)可解释性中的应用;基于“强化中期层非伦理-拒绝关联”设计更高效的对齐方法;开发基于该机制的主动防御策略,从根源抵御越狱攻击。