Representation Bending for Large Language Model Safety

发表于 2025-10-29 更新于 2025-10-30 分类于论文阅读，大模型，安全对齐本文字数： 4.7k 阅读时长 ≈ 9 分钟

Representation Bending for Large Language Model Safety

一、论文概览

1. 核心问题

大型语言模型（LLMs）虽能力强大，但存在生成有害内容、易受对抗攻击（如越狱攻击）、微调后安全性受损等风险，且现有安全技术（如基于人类反馈的微调RLHF、对抗训练）存在局限性：仅针对特定威胁、对未见过的攻击泛化性差、需手动构建系统级防御，或在提升安全性时损失模型的通用能力与可用性。

2. 主要贡献

提出REPBEND（Representation Bending）方法，通过从根本上扭曲LLMs中有害行为的底层表征，实现可扩展的安全增强，无需针对特定攻击设计防御。
REPBEND在多种越狱基准测试中实现最高95%的攻击成功率（ASR）降低，同时对模型可用性和通用能力的影响可忽略不计。
推进了LLM“安全性-通用能力”的帕累托前沿，在Mistral 7B、Llama3 8B等模型上的性能优于现有方法（如Circuit Breaker、RMU、NPO、Task Arithmetic）。
通过Logit Lens和PCA分析验证了REPBEND对模型内部表征的调控效果，证明其不仅改变模型输出，更优化了模型“内在决策逻辑”。

3. 研究方法

核心思想：将LLMs的“安全表征空间”与“不安全表征空间”扭曲至远离且可区分的状态，通过推动有害表征远离安全表征，提升模型对安全/不安全输入的辨别能力。
技术路径：将“激活引导”（通过安全/不安全提示的激活差异构建引导向量）的思想融入基于损失的微调，结合LoRA（低秩适应）更新模型参数以避免全量微调的低效。
损失函数：设计四术语损失函数$L = \frac{1}{2}|v_s|^2 - \alpha \cdot |v_u|^2 - \beta \cdot \cos_sim(A_u) + \gamma \cdot KL_{x \sim p_s}(M|M’)$，分别实现“保留安全表征”“远离不安全表征”“稳定拒绝输出”“维持通用能力”的目标。

二、各章节详解

1. 引言（1 Introduction）

背景：LLMs广泛应用于高风险场景（医疗、教育等），但易受对抗操纵（如越狱提示、恶意微调）生成有害内容，且未来AGI的潜在风险进一步加剧了安全需求。
现有技术缺陷：
- 传统对齐技术（SFT、DPO、RLHF）易被绕过，存在“浅层安全对齐”问题；
- 对抗训练仅针对已知攻击，泛化性差；
- 系统级防御（输入/输出过滤）难以扩展，且未提升模型内在安全性；
- 激活引导虽能调控推理行为，但泛化性差且可能损害模型推理能力。
本文切入点：将激活引导与微调结合，通过扭曲表征空间实现“内在安全”，同时保留模型通用能力。

对齐技术局限性：现有对齐方法易被上下文提示或结构修改绕过，难以保证鲁棒性。
遗忘学习（Unlearning）：传统遗忘学习针对特定知识（如《哈利·波特》内容），而NPO（Negative Preference Optimization）虽可扩展至有害知识遗忘，但仅针对模型输出，未调控内部表征。
激活引导（Activation Steering）：通过安全/不安全提示的激活差异构建引导向量，在推理时调控模型行为，但存在分布外（OOD）泛化差、损害推理能力的问题。
安全表征工程：
- RMU（Representation Masking Unlearning）：选择性遗忘不安全知识，但对模型能力损失较大；
- Circuit Breaker（CB）：通过“短路”有害表征提升安全，但调控逻辑复杂，性能弱于REPBEND；
- REPBEND区别：基于简单向量差异设计损失函数，兼顾泛化性与模型能力。

3. 表征扭曲（3 Representation Bending）

3.1 核心原理

通过微调使模型的安全表征（由安全提示/不安全提示+安全响应触发）与不安全表征（由不安全提示+不安全响应触发）在激活空间中显著分离，如图1所示：未应用REPBEND时，“制作炸弹”等不安全提示的表征与安全表征重叠，模型无法区分；应用后两者远离且可区分。

3.2 算法流程（Algorithm 1）

输入：原始模型$M$、三类数据集（$P_{uu}$：不安全提示+不安全响应，$P_{us}$：不安全提示+安全响应，$P_s$：安全提示+安全响应）、微调步数$T$；
初始化：基于$M$构建LoRA模型$M’$（仅更新LoRA参数，降低计算成本）；
迭代微调（$T$步）：
- 采样安全文本（$p_s \sim P_s \cup P_{us}$），计算$M’$与$M$的安全表征差异$v_s = M’(p_s) - M(p_s)$；
- 采样不安全文本（$p_{uu} \sim P_{uu}$），计算$M’$与$M$的不安全表征差异$v_u = M’(p_{uu}) - M(p_{uu})$；
- 采样不安全相关文本（$p_u \sim P_{uu} \cup P_{us}$），收集$M’$的不安全表征至集合$A_u$；
损失计算与优化：最小化损失函数，输出安全模型$M_{safe}=M’$。

$\begin{array}{l}L=\frac{1}{2}||v_{s}||{2} {-} \alpha {\cdot} ||v{u}||{ 2} {-} \beta {\cdot} \texttt{cos_sim}(A{u}) {+} \gamma\cdot KL_{x\sim p_{s}}(M|M^{\prime})\end{array}$

3.3 损失函数解析

保留损失（$\frac{1}{2}|v_s|^2$）：最小化$v_s$的L2范数，使$M’$的安全表征接近$M$，避免安全能力退化；
遗忘损失（$-\alpha \cdot |v_u|^2$）：最大化$v_u$的L2范数，使$M’$的不安全表征远离$M$，削弱有害表征；
余弦相似度损失（$-\beta \cdot \cos_sim(A_u)$）：最大化$A_u$中表征的余弦相似度，使模型对不安全提示的响应稳定为“拒绝话术”（如“我无法协助”），避免输出随机；
KL散度损失（$\gamma \cdot KL_{x \sim p_s}(M|M’)$）：最小化$M$与$M’$在安全文本上的KL散度，保留模型通用能力。

3.4 架构选择

目标层：选择Transformer的中层至高层（20层及以后），因这些层负责输出生成，对有害内容的表征更关键；
激活提取位置：选择Transformer块输出的残差流（$h_{i4}$），公式如下：
$$h_{i1}=ATTN\left(norm\left(x_i\right)\right)$$
$$h_{i2}=x_i + h_{i1}$$
$$h_{i3}=MLP\left(norm\left(h_{i2}\right)\right)$$
$$h_{i4}=h_{i2} + h_{i3}$$

4. 实验（4 Experiments）

4.1 实验细节

对比方法：Task Arithmetic（TA）、NPO、RMU、Circuit Breaker（CB）、公开安全模型（R2D2*、CB*）；
数据集：
- 训练集：WildGuardMix（1万条安全/不安全样本）、WildJailbreak（1万条有害提示）、UltraChat（1万条通用指令）；
- 测试基准：
  - 黑盒攻击：HarmBench（直接有害请求）、WildGuardTest（分布内基准）、DAN、TrustLLM-Jailbreak、PAP（说服性对抗提示）；
  - 白盒攻击：GCG（对抗后缀优化）、Prefilling（预填非拒绝开头）、Input Embed（嵌入空间攻击）；
  - 过拒绝测试：XSTest（模糊良性提示）、WildJailbreak-Benign（似对抗良性提示）；
  - 通用能力测试：MTBench、MMLU、BBH、TruthfulQA、ARC-C、Winogrande、GSM8K、Codex-Eval；
训练设置：基于Mistral 7B v0.2、Llama3 8B等模型，LoRA秩=16、学习率$1e^{-5}$，批量大小16。

4.2 抗越狱攻击鲁棒性

核心结果：REPBEND在黑盒与白盒攻击中均实现最低ASR（攻击成功率）：
- Mistral 7B：总平均ASR=3.25（原始模型=60.64），降低94.64%；
- Llama3 8B：总平均ASR=3.13（原始模型=34.00），降低90.79%；
泛化性：在分布外（OOD）基准（如GCG、PAP）上表现优异，证明其无需针对特定攻击设计。

4.3 安全-可用性-能力权衡

过拒绝：REPBEND在XSTest、WildJailbreak-Benign上的合规率（84.89%、93.60%）接近原始模型，避免“过度拒绝”良性请求；
通用能力：在8项能力基准上的平均得分与原始模型差异可忽略（如Mistral 7B原始=63.81，REPBEND=57.68）；
整体性能：REPBEND的“安全-过拒绝-通用能力”综合得分最高（Mistral 7B=81.23，Llama3 8B=83.14），处于帕累托最优。

4.4 跨架构适用性

在Gemma2 2B、Qwen2.5 14B等不同参数规模/架构的模型上，REPBEND仅需微调学习率和步数，即可显著提升安全（如Qwen2.5 14B的HarmBench ASR从17.19降至7.50），证明其可扩展性。

4.5 模型内部行为分析

Logit Lens可视化：原始模型在高层（20层后）对有害token的预测置信度显著提升（蓝色热图），而REPBEND在高层对拒绝token的置信度高，且强制输入有害序列时会生成低置信度随机token（红色热图）；
激活分析（PCA与距离度量）：
- PCA显示：原始模型的安全/不安全表征聚类重叠，REPBEND后两者完全分离；
- 距离度量：REPBEND使安全/不安全表征的层wise欧氏距离和Jensen-Shannon散度显著增大，且高层增幅更明显。

5. 结论（5 Conclusion）

REPBEND通过将激活引导融入微调，扭曲模型表征空间以实现内在安全，在多种LLM上实现高安全、低过拒绝、强泛化的平衡，为高风险场景下LLM的安全部署提供了可扩展方案。未来可进一步优化计算效率，应对“重学有害知识”等挑战。

6. 局限性（6 Limitations）

鲁棒性：若用不安全数据重新微调，REPBEND模型可能重学有害知识；
泛化范围：仅在开源模型上验证，未覆盖超大参数私有模型（如GPT-4）；
超参敏感性：损失系数（$\alpha,\beta,\gamma$）需调优，且调优成本较高。

7. 更广泛影响与风险（7 Broader Impact and Potential Risks）

积极影响：推动AI安全标准制定，支持LLM在医疗、法律等高风险领域的部署；
潜在风险：可能引发“安全-攻击”军备竞赛，恶意者或反向利用REPBEND的损失函数生成有害模型，且超参搜索需大量计算，存在环境成本。

三、一句话总结

论文假设通过扭曲LLMs的安全与不安全表征空间可在提升安全性的同时保留通用能力，提出基于激活引导的微调方法REPBEND，以四术语损失函数结合LoRA调控中层至高层表征，在Mistral 7B、Llama3 8B等模型上实现最高95%的攻击成功率降低，且保持低过拒绝与强泛化性，最终证明REPBEND是一种可扩展、内在安全的LLM安全增强方案，推进了安全与能力的权衡前沿。

Representation Bending for Large Language Model Safety

一、论文概览

1. 核心问题

2. 主要贡献

3. 研究方法

二、各章节详解

1. 引言（1 Introduction）

2. 相关工作（2 Related Work）

3. 表征扭曲（3 Representation Bending）

3.1 核心原理

3.2 算法流程（Algorithm 1）

3.3 损失函数解析

3.4 架构选择

4. 实验（4 Experiments）

4.1 实验细节

4.2 抗越狱攻击鲁棒性

4.3 安全-可用性-能力权衡

4.4 跨架构适用性

4.5 模型内部行为分析

5. 结论（5 Conclusion）

6. 局限性（6 Limitations）

7. 更广泛影响与风险（7 Broader Impact and Potential Risks）

三、一句话总结