Refusal in Language Models Is Mediated by a Single Direction

发表于 2025-10-29 分类于论文阅读，大模型，安全对齐本文字数： 4.7k 阅读时长 ≈ 9 分钟

Refusal in Language Models Is Mediated by a Single Direction

NeurIPS

一、论文概览

（一）核心问题

对话式大语言模型（LLM）经指令遵循与安全微调后，能遵循良性请求但拒绝有害请求，这种拒绝行为在聊天模型中普遍存在，但其底层介导机制尚未明确；同时，现有越狱攻击虽能绕过安全防御，但缺乏对攻击机制的深度理解，且当前安全微调机制的鲁棒性亟待验证。

（二）主要贡献

机制发现：在13个参数规模达72B的开源聊天模型中，证实拒绝行为由一维子空间（即“拒绝方向”）介导——删除该方向会使模型无法拒绝有害指令，添加该方向会使模型对无害指令也产生拒绝。
方法创新：提出基于权重正交化的白盒越狱方法，通过修改模型权重（将输出矩阵与拒绝方向正交）禁用拒绝机制，且对模型的通用能力（如推理、知识问答）影响极小。
机制分析：从机理上解释了对抗性后缀（一种流行的提示级越狱技术）的作用方式——通过抑制拒绝方向在token位置间的传播，并劫持关键注意力头的注意力，从而绕过拒绝机制。

（三）研究方法

拒绝方向提取：采用均值差法，计算模型处理有害与无害指令时残差流激活的均值差异，筛选出对拒绝行为调控最有效的“拒绝方向”。
模型干预：通过“方向消融”（零除残差流中拒绝方向的分量）和“激活添加”（向激活中加入拒绝方向向量），验证拒绝方向对拒绝行为的调控作用。
权重正交化：将模型中所有写入残差流的矩阵（嵌入矩阵、注意力输出矩阵等）与拒绝方向正交，实现与方向消融等效的长期干预。
评估体系：
- 拒绝行为评估：用JAILBREAKBENCH（100条有害指令）和ALPACA（100条无害指令）作为测试集；
- 安全性评估：用META LLAMA GUARD 2判断输出是否有害；
- 模型连贯性评估：通过MMLU、ARC、GSM8K、TRUTHFULQA等基准测试，衡量干预对通用能力的影响；
- 越狱效果对比：在HARMBENCH（159条标准行为）上与GCG、AutoPrompt等主流越狱方法比较攻击成功率（ASR）。

二、各章节详解

1. 引言（Introduction）

背景：LLM需经多轮微调实现“有益且无害”，但大量越狱攻击（如微调、对抗性提示）试图绕过安全防御；随着模型在高风险场景部署，稳健的有害请求拒绝能力成为安全AI的核心需求。
动机：受机制可解释性（如Transformer电路分析）和激活引导（通过调控激活控制模型输出）领域进展启发，从模型内部表征切入，探索拒绝行为的底层机制。
目标：揭示拒绝行为的介导机制，开发可控的拒绝行为调控方法，并理解现有越狱技术的作用原理。

2. 方法论（Methodology）

2.1 背景知识

Transformer： decoder-only结构，残差流激活$x_i^{(l)}$经注意力和MLP模块更新，最终通过Unembed层生成token概率；
聊天模型：采用特定模板（如<user>{指令}<end_user><assistant>），分析聚焦于“指令后token”（即模型开始生成响应的区域）的激活。

2.2 数据集与模型

数据集：
- 有害数据集$D_{harmful}$：从ADVBENCH、MALICIOUSINSTRUCT、TDC2023、HARMBENCH抽取，训练/验证集各128/32条，评估用JAILBREAKBENCH（100条）和HARMBENCH测试集（159条）；
- 无害数据集$D_{harmless}$：从ALPACA抽取，训练/验证集各128/32条，评估用100条ALPACA指令；
- 所有数据集均过滤重叠，确保评估独立性。
模型：13个开源聊天模型，覆盖5个家族（QWEN CHAT、YI CHAT、GEMMA IT、LLAMA-2 CHAT、LLAMA-3 INSTRUCT），参数1.8B-72B，包含两种对齐方式（APO偏好优化、AFT微调对齐），详情见表1。

2.3 提取拒绝方向

均值差法：对每层$l$和指令后token位置$i$，计算有害指令激活均值$\mu_i^{(l)}$与无害指令激活均值$v_i^{(l)}$的差异$r_i^{(l)}=\mu_i^{(l)}-v_i^{(l)}$，该向量的方向代表“有害-无害”激活差异，幅度代表差异大小；
最优向量选择：从$|I|×L$个候选向量中，通过验证集（$D_{harmful}^{(val)}$和$D_{harmless}^{(val)}$）评估“绕过拒绝能力”（bypass_score）、“诱导拒绝能力”（induce_score）和“对无害行为影响”（kl_score），筛选出最优拒绝方向$r$（单位向量$\hat{r}$），详情见§C。

2.4 模型干预

激活添加：在层$l$的所有token位置添加拒绝方向$r^{(l)}$，使无害指令激活向有害激活偏移，诱导拒绝（公式3）；
方向消融：在所有层和token位置，零除残差流激活中沿$\hat{r}$的分量，使模型无法表征拒绝方向，禁用拒绝行为（公式4）。

2.5 评估指标

拒绝分数（refusal_score）：若输出包含“我很抱歉”“作为AI”等拒绝子串（图12），则记1（拒绝），否则记0；
安全分数（safety_score）：用META LLAMA GUARD 2（遵循其默认提示模板，图13）判断输出是否安全，安全记1，否则记0；
补充指标：拒绝 metric（基于拒绝token的概率对数 odds，用于快速筛选指令和评估干预效果，§B）、CE损失（评估模型输出分布与原始分布的差异）。

3. 拒绝行为由单一方向介导

本章验证“拒绝方向是拒绝行为的必要且充分条件”，核心结果基于JAILBREAKBENCH（有害指令）和ALPACA（无害指令）的评估。

3.1 方向消融：绕过拒绝

对模型所有层和token位置消融拒绝方向$\hat{r}$后，模型对有害指令的拒绝率显著下降，不安全输出比例大幅上升（图1）。例如LLAMA-3 8B INSTRUCT在无干预时拒绝率近100%，消融后拒绝率降至1%以下，且输出有害内容（图2示例：原本拒绝生成诽谤美国总统的文章，消融后生成了耸人听闻的诽谤内容）。

3.2 激活添加：诱导拒绝

在拒绝方向提取的层$l^*$，向所有token位置添加拒绝方向$r$后，模型对无害指令也会产生拒绝（图3）。例如GEMMA 7B IT在无干预时会正常解释瑜伽的健康益处，添加拒绝方向后，以“瑜伽可能有害”为由拒绝提供信息（图4示例）。

4. 基于权重正交化的白盒越狱

4.1 权重正交化原理

方向消融是推理时的干预，而权重正交化通过直接修改模型权重实现等效效果：将所有写入残差流的矩阵（嵌入矩阵、注意力输出矩阵、MLP输出矩阵等）与$\hat{r}$正交（公式5：$W_{out}’ = W_{out} - \hat{r}\hat{r}^T W_{out}$），使模型无法向残差流写入拒绝方向，从根源禁用拒绝机制（附录E证明两者等效）。

4.2 与其他越狱方法的对比

在HARMBENCH测试集（159条有害指令）上，将权重正交化方法（ORTHO）与主流越狱技术（GCG、GCG-M、AutoPrompt、PAIR等）对比，结果见表2：

ORTHO作为通用越狱方法（无需针对单个提示优化），在QWEN模型家族上表现优异，与针对单个提示优化的GCG（提示特定方法）效果相当（如QWEN 14B的ORTHO-ASR为84.3%，GCG为83.5%）；
模型对系统提示敏感性存在差异：LLAMA-2家族在包含系统提示时ASR显著下降（如LLAMA-2 7B从79.9%降至22.6%），而QWEN家族受系统提示影响小（如QWEN 7B从74.8%降至79.2%），推测与模型对系统指令的响应机制差异有关（§F.2）。

4.3 模型连贯性评估

通过MMLU（多任务语言理解）、ARC（推理）、GSM8K（数学推理）、TRUTHFULQA（真实性）等基准测试，评估权重正交化对模型通用能力的影响（表3、表8）：

除TRUTHFULQA外，正交化模型在其他基准上的表现与原始模型差异极小（多数在99%置信区间内），例如LLAMA-3 70B的MMLU分数从79.9降至79.8，GSM8K从91.2降至90.8；
TRUTHFULQA分数普遍下降（如GEMMA 7B从47.1降至44.7），因该数据集包含“阴谋论”“刻板印象”等接近拒绝边界的内容，模型安全机制被禁用后响应方式改变（§G.2）。

5. 对抗性后缀的机制分析

以QWEN 1.8B CHAT为研究对象，分析对抗性后缀（通过GCG生成，图21）如何绕过拒绝机制，核心发现如下：

5.1 抑制拒绝方向的表达

对比“有害指令”“有害指令+随机后缀”“有害指令+对抗性后缀”“无害指令”四种场景的激活与拒绝方向的余弦相似度（图5）：

有害指令及添加随机后缀时，激活与拒绝方向的相似度高（表明拒绝方向被强烈表达）；
添加对抗性后缀后，相似度显著降低，与无害指令的相似度接近（表明拒绝方向的表达被抑制）。

5.2 劫持关键注意力头

通过直接特征归因（DFA）筛选出对拒绝方向贡献最大的8个注意力头，分析其行为变化（图6）：

无后缀或添加随机后缀时，这些头关注“有害指令区域”，向拒绝方向输出强信号；
添加对抗性后缀后，这些头的注意力转移到“后缀区域”（劫持注意力），对拒绝方向的贡献显著降低（图6a），最终抑制拒绝行为。

6. 相关工作

理解LLM拒绝：现有研究多通过删除安全关键神经元、多段干预调控拒绝，但未发现单一方向的介导作用；本文首次证实拒绝由一维子空间调控，且对抗性后缀会抑制该方向（与Zou et al. (2023a)的结论不同）。
特征作为方向：均值差法是提取线性特征方向的常用方法，本文将其应用于拒绝行为，且验证了该方向的因果介导作用。
撤销安全微调：现有方法需通过微调（需有害指令-输出对），而本文仅需有害指令即可实现，更简洁。
越狱技术：社交工程、对抗性后缀等需修改输入，且可能影响模型性能；本文无需修改提示，对模型连贯性影响极小。

7. 讨论

7.1 局限性

模型泛化性：仅验证13个开源模型，未覆盖闭源模型或未来更大规模模型；
拒绝方向提取：依赖启发式筛选（如层限制$l<0.8L$），可能非最优方法；
对抗性后缀分析：仅针对QWEN 1.8B和单个后缀，缺乏更广泛的分析；
连贯性评估：现有指标（CE损失、基准测试）无法完全衡量聊天模型的连贯性；
语义模糊性：“拒绝方向”仅为功能描述，其真实语义（如“危害”“危险”）尚不明确。

7.2 伦理考量

方法影响：相比微调，本文方法（5美元内可越狱70B模型）降低了开源模型的越狱门槛，但未显著改变开源模型的风险 profile（因微调已能实现越狱）；
核心警示：现有安全微调机制脆弱，随模型能力提升和高风险场景部署，需更鲁棒的安全技术；本文的价值在于推动对安全机制局限性的科学共识，为政策和研究提供参考。

三、一句话总结

论文假设语言模型的拒绝行为由激活空间中的单一“拒绝方向”介导，通过均值差法从有害与无害指令的激活差异中提取该方向，结合方向消融、激活添加验证其对拒绝行为的调控作用，提出与方向消融等效的权重正交化白盒越狱方法，在13个开源模型上证实该方法能高效禁用拒绝机制且对通用能力影响极小，同时发现对抗性后缀通过抑制拒绝方向表达和劫持注意力头起作用，最终表明当前开源模型的安全微调机制脆弱，对模型内部机制的理解可有效用于控制模型行为。