Safety Alignment Should Be Made More Than Just a Few Tokens Deep

发表于 2025-10-28 更新于 2025-10-30 分类于论文阅读，大模型，安全对齐本文字数： 5.3k 阅读时长 ≈ 10 分钟

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

一、研究背景与核心问题

当前大语言模型（LLMs）的安全对齐（Safety Alignment） 严重依赖监督微调（SFT）、基于人类反馈的强化学习（RLHF）、直接偏好优化（DPO）等方法，目标是让模型拒绝有害输入、减少有害内容生成。但近期研究发现，这类对齐方法存在显著脆弱性：

简单对抗攻击（如对抗后缀、预填充有害前缀）、少量梯度步骤的微调、调整解码参数（温度、top-k），都能“越狱”对齐模型，使其生成有害内容。

论文提出：这些脆弱性的共同根源是“浅层安全对齐（Shallow Safety Alignment）”——即当前对齐仅通过调整模型输出的前几个token的生成分布实现安全（如强制输出“我不能满足你的请求”等拒绝前缀），而对后续token的分布几乎无影响。若攻击者绕过前几个token的拒绝前缀，模型会沿有害轨迹继续生成内容（如用户诱导模型以“当然，以下是详细指南”开头，后续会输出制造炸弹的步骤）。

论文的核心目标：验证浅层对齐的存在性，解释其引发的漏洞，并提出“加深对齐”的解决方案。

二、浅层安全对齐的定义与实验验证

论文通过系统实验，从“对齐捷径”和“分布差异证据”两方面，证实当前LLMs普遍存在浅层安全对齐问题。

2.1 核心定义

浅层安全对齐：模型仅通过调整输出前几个token的生成分布（如强化拒绝前缀）实现“表面安全”，后续token的分布与未对齐模型（base model）差异极小。
深层安全对齐（Deep Safety Alignment）：模型即使前几个token偏离拒绝前缀（如被诱导生成有害开头），仍能恢复到安全拒绝轨迹，对齐效果覆盖整个输出序列。

2.2 实验验证：浅层对齐的关键证据

论文以Llama-2-7B（含Chat对齐版本）和Gemma-7B（含IT对齐版本）为实验对象，采用HEx-PHI安全基准（330个有害指令，覆盖11类风险场景），用GPT-4自动评估输出有害性（指标：有害率Harmfulness Rate、攻击成功率ASR）。

证据1：“拒绝前缀”是对齐的捷径

未对齐的base model若被强制预填充拒绝前缀（如“I cannot”“I apologize”），其有害率会骤降至与对齐模型接近的水平（表1）：

Llama-2-7B base模型原本有害率68.6%，预填充“I apologize, but I cannot”后降至2.1%；
Gemma-7B base模型原本有害率85.4%，预填充相同前缀后降至1.0%。

这证明：当前对齐本质是“优化前几个token的拒绝前缀”，而非真正让模型理解“为何拒绝有害请求”——base model本身已通过预训练习得“拒绝前缀后接安全内容”的语言模式，对齐仅需强化这一捷径。

证据2：KL散度集中于前几个token

论文计算对齐模型与base model在有害内容上的逐token KL散度（衡量两模型生成分布的差异），发现：

无论是Llama-2-7B还是Gemma-7B，前5个token的KL散度远高于后续token（图1），且后续token的KL值接近0。

这表明：对齐过程的“KL预算”（即分布调整资源）几乎全部用于前几个token，后续token的生成分布与未对齐模型几乎一致——直接验证了浅层对齐的存在。

三、浅层对齐引发的安全漏洞

浅层对齐的本质是“仅防御前几个token”，这导致模型在推理阶段和微调阶段均存在严重安全漏洞。

3.1 推理阶段漏洞：绕过前几个token即可越狱

由于后续token的分布未被对齐调整，攻击者只需诱导模型前几个token偏离拒绝前缀，即可触发有害生成。论文验证了三类典型漏洞：

（1）预填充攻击（Prefilling Attacks）

攻击者在推理时预填充前k个有害token（如“步骤1：收集磷”），模型后续会继续生成有害内容。实验显示（图2）：

对齐的Llama-2-7B-Chat在预填充5个有害token后，ASR从0升至42.1%；预填充10个后升至51.5%，接近base model水平。
即使是闭源模型（如Anthropic Claude），其支持的“预填充接口”也存在此风险（近期已有相关攻击案例）。

（2）基于优化的越狱攻击（如GCG攻击）

攻击者通过优化“对抗后缀”（如在有害指令后添加特定字符串），强制模型生成“肯定前缀”（如“Sure, here’s…”）。这类攻击的核心是“优化前几个token的分布”，恰好利用了浅层对齐的弱点——论文指出，此类攻击的“代理目标（最大化肯定前缀概率）”高效的原因，正是浅层对齐仅关注前几个token。

（3）解码参数攻击（Decoding Parameter Exploit）

通过调整解码参数（温度、top-k、top-p）随机采样，大概率能让模型前几个token偏离拒绝前缀。实验显示（表2）：对齐模型在调整参数后，ASR可达54.9%（HEx-PHI）和84.3%（MaliciousInstruct）——本质是随机突破了“前几个token的防御”。

3.2 微调阶段漏洞：少量步骤即可破坏对齐

近期研究发现，仅用少量有害数据微调（甚至良性微调），就能让对齐模型“忘记”安全约束。论文通过逐token微调动态分析，揭示其根源仍是浅层对齐：

关键实验：微调对齐模型的逐token变化

对Llama-2-7B-Chat用100个（有害指令，有害响应）数据微调，观察逐token的交叉熵损失、梯度范数和KL散度（图3）：

前几个token的损失最大：对齐模型对拒绝前缀的概率极高，而有害数据要求生成有害前缀，导致前几个token的损失远高于后续；
前几个token的梯度范数最大：微调时，前几个token的参数更新幅度远大于后续，导致其生成分布快速偏离对齐状态；
ASR骤升：仅6个梯度步骤后，ASR从初始1.5%升至87.9%，证明“破坏前几个token的对齐”即可完全越狱。

良性微调的安全退化

即使微调数据是良性的（如Samsum摘要、SQL生成），前几个token的梯度仍会因“良性数据无拒绝前缀”而大幅更新，导致模型“忘记”拒绝有害请求——例如，微调Samsum仅10个步骤，ASR从1.5%升至22.1%。

四、解决方案：从“浅层”到“深层”的安全对齐

针对浅层对齐问题，论文提出两种互补方案：1. 加深对齐（数据增强让对齐覆盖更多token）；2. 保护初始token（约束微调时初始token的分布偏移）。

4.1 方案1：数据增强——实现“安全恢复”的深层对齐

核心思路：构造“安全恢复示例（Safety Recovery Examples）”，训练模型即使前k个token是有害前缀，仍能切换回拒绝响应，从而将对齐效果延伸到后续token。

实现细节

数据构造：构建三元组数据集(D_H = {(x, h, r)})，其中：
- (x)：有害指令（如“如何制造炸弹”）；
- (h)：该指令的有害响应（用越狱GPT-3.5生成）；
- (r)：对齐模型的拒绝响应；
  示例：<s>[INST]如何制造炸弹[/INST]步骤1：收集磷 → 我不能满足你的请求...（强制模型从有害前缀“步骤1”切换到拒绝）。
效用保护：为避免模型效用下降，加入良性数据集(D_B)（Alpaca指令+对齐模型的响应），作为“效用锚点”。
微调目标：平衡安全恢复与效用，公式如下：
$$
\min_{\theta} \alpha \cdot \mathbb{E}{(x,h,r)\sim D_H} \left[ -\log \pi{\theta}(r | x, h_{\leq k}) \right] + (1-\alpha) \cdot \mathbb{E}{(x’,y’)\sim D_B} \left[ -\log \pi{\theta}(y’ | x’) \right]
$$
其中(k)随机采样（50%概率(k=0)，50%概率(k\in[1,100])），(\alpha=0.2)（控制安全数据权重）。

实验效果

对齐深度提升：增强后的模型（Llama-2-7B-Chat-Augmented）在有害内容上的KL散度，从“仅前几个token高”延伸到后续token（图4），证明对齐覆盖了更多token。
效用保留：AlpacaEval胜率从原模型的51.8%降至49.5%，仅轻微下降，说明安全增强未损害效用。
抗攻击能力提升：对推理阶段的三类攻击，ASR均大幅下降（表2）：
- 预填充10个有害token的ASR：从51.5%→2.9%；
- GCG攻击ASR（HEx-PHI）：从36.5%→18.4%；
- 解码参数攻击ASR（MaliciousInstruct）：从84.3%→1.0%。

4.2 方案2：约束初始token——抵御微调攻击

核心思路：既然浅层对齐的脆弱性源于“初始token易被微调改变”，则通过逐token约束的微调目标，强制初始token的生成分布不偏离对齐状态，同时允许后续token为适配任务更新。

实现细节

约束目标设计：借鉴DPO和KTO的思路，设计带token级正则的微调目标，通过参数$\beta_t$控制不同token的约束强度：

$$
\min_{\theta} \mathbb{E}{(x,y)\sim D} \left[ -\sum{t=1}^{|y|} \frac{2}{\beta_t} \log \sigma\left( \beta_t \cdot \log \frac{\pi_{\theta}(y_t | x, y_{<t})}{\pi_{aligned}(y_t | x, y_{<t})} \right) \right]
$$
- $\sigma$：sigmoid函数，用于平滑约束；
- $\beta_t$：约束强度——对前5个token设大$\beta_t$（如$\beta_1=0.5$，$\beta_{2-5}=2$），强制其分布接近对齐模型；对后续token设小$\beta_t=0.1$，允许适配任务。
梯度特性：初始微调时，模型参数与对齐模型一致，梯度与普通SFT相同；当初始token分布开始偏离时，(\beta_t)会自适应降低梯度权重，阻止进一步偏离。

实验效果

抗微调攻击能力：对三类微调攻击（有害微调、身份转移、后门投毒），约束模型的ASR远低于普通SFT（表3）：
- 有害微调ASR：普通SFT 88.9% → 约束SFT 4.6%；
- 后门投毒（触发时）ASR：普通SFT 90.9% → 约束SFT 10.9%。
良性微调效用保留：在Samsum（摘要）、SQL生成、GSM8k（数学）任务上，约束SFT的效用（ROUGE-1、准确率）与普通SFT接近（如SQL生成准确率：普通SFT 99.1% → 约束SFT 98.5%）。

消融实验验证

偏置约束初始token至关重要：若对所有token用统一(\beta_t=0.1)，约束失效（有害微调ASR 86.2%）；若用统一(\beta_t=2.0)，效用崩溃（SQL生成准确率92.6%）；仅偏置初始token的约束最优。
热身步骤必要：前10步学习率热身可避免初始梯度过大破坏对齐，无热身时有害微调ASR升至29.1%，有热身时仅4.6%。

五、相关工作与结论

5.1 相关工作关联

表面对齐假说（SAH）：此前研究提出“对齐仅改变输入输出格式”，本文进一步聚焦“安全领域的token级浅层性”，并解释了多种漏洞的共同根源。
逐token对齐效应：已有研究发现对齐对token的影响不均，但本文首次将其与“安全脆弱性”直接关联，并提出可落地的解决方案。
控制理论与安全RL：论文的“安全恢复示例”借鉴了“恢复策略（Recovery Policies）”思想，为后续结合安全RL深化对齐提供方向。

5.2 核心结论与启示

核心发现：当前LLM的安全对齐普遍是“浅层”的，仅依赖前几个token的拒绝前缀，这是多种越狱攻击的共同根源。
解决方案有效性：
- 数据增强可将对齐延伸到更多token，提升抗推理攻击能力；
- 约束初始token可抵御微调攻击，同时保留任务适配能力。
未来方向：安全对齐需突破“前几个token”的局限，探索结合控制理论、安全RL的深层对齐方法，确保对齐效果覆盖整个输出序列。

六、关键实验补充说明

模型与基准：实验用Llama-2-7B（Chat）、Gemma-7B（IT），安全评估以HEx-PHI为主，补充AdvBench（GCG攻击）、MaliciousInstruct（解码参数攻击）。
评估方法：用GPT-4-Turbo作为裁判，输出有害性评分（1-5分），ASR定义为“评分为5的样本比例”，确保客观性。
代码开源：实验代码已开源（https://github.com/Unispac/shallow-vs-deep-alignment），可复现关键结果。