Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment

发表于 2025-10-29 分类于论文阅读，大模型，安全对齐本文字数： 5.9k 阅读时长 ≈ 11 分钟

Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment

1. 论文概览

核心问题：即使使用良性数据集微调对齐的大语言模型（LLMs），数据中仍可能存在难以识别的“安全降级样本”，导致模型安全对齐受损，现有方法（如毒性过滤器、梯度类方法）无法高效精准检测此类样本，需解决LLM微调中安全降级样本的识别与过滤问题。
主要贡献：1. 提出层感知表示过滤框架LARF，无需昂贵梯度计算或排序器训练，利用层表示敏感性高效定位良性数据中的安全降级样本；2. 检测性能领先，如Alpaca数据集上，LARF标记的底部1000样本微调Llama3.1时，HarmBench攻击成功率（ASR）从3.5%升至39%（优于Bi-Anchoring），顶部1000样本微调使ASR降至0%；3. 通用性强，过滤安全降级样本后，能在代码生成、数学推理、医疗问答等下游任务中缓解安全对齐降级，可作为部署前审计工具。
研究方法：LARF分两阶段：1. 安全敏感层识别：对LLM各层参数施加缩放因子，通过过度拒绝数据集（D_s）上的拒绝响应变化率，筛选出对安全最敏感的层；2. 安全降级数据过滤：基于安全敏感层，计算安全参考数据集（D_safe）和不安全参考数据集（D_unsafe）的平均表示，再通过样本与两类表示的余弦相似度差（安全降级分数）排序并过滤样本。

2. 各章节详解

2.1 Introduction（引言）

背景与问题：LLM的广泛应用使其安全对齐至关重要，但研究表明：即使注入少量有害问答对，或用Alpaca等良性数据集微调，均可能破坏模型安全防护；现有毒性过滤器（如LLaMa Guard、MD-Judge）仅能检测明显有害内容，无法识别“安全降级样本”（表面良性但削弱模型安全的样本）；现有检测方法存在局限——Bi-Anchoring梯度相似性信号嘈杂、扩展性差，SEAL需额外训练排序器、计算开销大。
核心观察：LLM的安全拒绝行为集中于特定“安全敏感层”，此类样本在表示空间中更接近不安全样本（如图1，PCA投影显示安全降级样本（橙色）靠近不安全样本（红色），远离安全样本（绿色））。
内容小结：引出LARF方法的必要性，概述其两阶段逻辑，并预告论文后续对方法、实验及结果的阐述。

2.2.1 Data Attribution Method（数据归因方法）

作用：量化单个数据点对模型输出的影响，区别于语义 moderation分类器。
相关方法：
- GradSafe：基于模型安全敏感参数的梯度分类不安全指令；
- Bi-Gradient（He et al., 2024）：受LESS启发，识别破坏安全对齐的良性数据；
- DABUF（Pan et al., 2025b）：过滤越狱和偏见训练数据；
- SEAL（Shen et al., 2025）：通过安全-有用性双层优化训练数据排序器，提升安全高质量样本权重。

2.2.2 Representation Engineering（表示工程）

核心发现：中间表示含丰富安全相关信息，可影响模型安全行为（如公平性、危害性）。
相关案例：
- Refusal Direction（Arditi et al., 2024）：推理时操纵中间表示，可切换模型对有害提示的“拒绝/服从”响应；
- Circuit Breaker（Zou et al., 2024）：重定向有害表示以防御对抗性攻击，证明表示对安全对齐的关键作用。
本文延伸：基于表示工程视角，提出数据驱动框架，利用中间表示量化并排序良性数据中的安全降级样本。

2.3 Method（方法）

2.3.1 Problem Formulation（问题定义）

样本定义：单个样本(d=(x,y))，其中(x)为指令，(y)为响应。
关键数据集：
- ($D_{unsafe}$)：含(N)个有害指令，配对未审查模型生成的有害完成；
- ($D_{safe}$)：与($D_{unsafe}$)指令相同，配对安全拒绝响应；
- ($D_s$)：过度拒绝数据集，对参数变化敏感，用于识别安全敏感层；
- ($D_{test}$)：待过滤的测试数据集。
模型层结构：设LLM含(L)个隐藏层，第(l)层注意力模块为($A_l$)、前馈模块为($F_l$)，输入表示为($r_l$)，输出表示为($r_{l+1}$)，即$r_{l+1}=F_l(A_l(r_l))$。

2.3.2 Safety-sensitive Layers Identification（安全敏感层识别）

核心逻辑：过度拒绝（模型误拒良性输入）反映安全机制过度敏感，通过缩放各层参数，观察(D_s)上拒绝率变化，筛选变化最大的层为安全敏感层。
关键步骤：
1. 参数缩放：对第(l)层，定义缩放后的注意力模块($A_l^{\pm}=(1\pm\alpha)A_l$)、前馈模块($F_l^{\pm}=(1\pm\alpha)F_l$)，其中($\alpha\in{0.1,0.2}$)（α超过0.2会导致模型行为异常）；
2. 拒绝计数：计算缩放后模型在($D_s$)上的拒绝响应数($c_{ref}^+$)（增强层）和($c_{ref}^-$)（削弱层），定义拒绝数差($\Delta_l(\alpha)=c_{ref}^±c_{ref}^-$)；
3. 敏感度计算：归一化变化率($k_l=\max_{\alpha\in{0.1,0.2}}\frac{\Delta_l(\alpha)}{\alpha}$)；
4. 层选择：安全敏感层($l_s=\arg\max_{l=0,…,L-1}k_l$)（实验中Llama3/Llama3.1的($l_s=13$)，Qwen2.5的($l_s=18$)）。

2.3.3 Bidirectional Representation Similarity Calculation（双向表示相似度计算）

核心逻辑：利用安全敏感层的表示，结合($D_{safe}$)和($D_{unsafe}$)的参考表示，通过相似度差量化样本的安全降级程度（仅用单一参考会降低准确性）。
关键步骤：
1. 参考表示提取：对($d\in D_{safe}\cup D_{unsafe}$)，提取安全敏感层最终 token的隐藏状态，计算平均表示：
  $$r_{safe}=\frac{1}{|D_{safe}|}\sum_{d\in D_{safe}}r_{l_s+1}(d)$$
  $$r_{unsafe}=\frac{1}{|D_{unsafe}|}\sum_{d\in D_{unsafe}}r_{l_s+1}(d)$$
2. 安全降级分数计算：对($d_i\in D_{test}$)，提取表示($r_i=r_{l_s+1}(d_i)$)，计算余弦相似度($s_{safe}(r_i)=\text{sim}(r_i,r_{safe})$)、($s_{unsafe}(r_i)=\text{sim}(r_i,r_{unsafe})$)，最终分数：$$score_i=s_{unsafe}(r_i)-s_{safe}(r_i)$$
3. 样本排序与过滤：按($score_i$)降序排序，高分样本为安全降级样本，需过滤；低分样本为安全样本，可用于微调。

2.4 Experiment（实验）

2.4.1 Experimental Setups（实验设置）

模型：主实验用Llama3-8B-Instruct、Llama3.1-8B-Instruct、Qwen2.5-7B-Instruct，附录验证Mistral-v0.2、Phi-3-mini、Qwen2及大模型（Llama3-70B、Qwen2.5-32B/72B）；
数据集：
- 安全评估：HarmBench（Mazeika et al., 2024）、HEx-PHI（Qi et al., 2024）、DirectHarm4（Lyu et al., 2024，含恶意软件、毒品等4类高危害内容）；
- 微调数据：Alpaca（Taori et al., 2023）、Dolly（Conover et al., 2023）、Magicoder（Wei et al., 2024）、PubMedQA（Jin et al., 2019）、MetaMath（Yu et al., 2023）；
- 参考数据集：($D_{safe}$)和($D_{unsafe}$)从Circuit Breaker训练集中选取20类（含化学武器、网络犯罪等），每类5个样本构建；
评估指标：
- 安全评估：用LlamaGuard 3或GPT-4o（1-5分，5分为最有害），核心指标为攻击成功率（ASR，越高表示模型越不安全）；
- 下游任务：Magicoder用HumanEval的pass@1，PubMedQA用测试集准确率，MetaMath用MATH的math_verify；
微调设置：LoRA训练（秩=8，α=8），3个epoch，批大小=8，学习率=1×10⁻⁴，热身比例=0.1。

2.4.2 Safety-sensitive Layers Identification（安全敏感层识别结果）

层敏感性验证：以Llama3为例（图4），第13层参数增强时拒绝响应显著增加，削弱时拒绝响应显著减少，其他层变化平缓；
层有效性验证：用11-31层表示选择Alpaca的1000个样本微调Llama3，第13层选择的样本微调后ASR最高（图5），证明安全敏感层在数据选择中的有效性；
表示特征：安全敏感层的($s_{safe}$)和($s_{unsafe}$)均值最低（图6），后续层中两类相似度均上升，表明安全相关特征在安全敏感层后被增强。

2.4.3 Safety-degrading Data Selection（安全降级数据选择结果）

基线对比：基线包括Random（随机选样）、SEAL（训练排序器）、GradSafe（仅用指令梯度）、Bi-Anchoring（梯度相似度差）；
核心结果：
1. 效率最优：LARF仅需1×18.4GB GPU内存，0.5小时完成Alpaca过滤，远优于SEAL（8 GPU，6小时）、GradSafe（1 GPU，5.3小时）、Bi-Anchoring（4 GPU，3小时）（表3）；
2. 检测性能最优：所有模型-数据集组合中，LARF选择的安全降级样本（高分）微调后ASR最高（表1，如Llama3在Alpaca-DirectHarm4上ASR达52.00%，优于SEAL的26.75%、Bi-Anchoring的49.00%）；
3. 过滤有效性：LARF选择的安全样本（低分）微调后ASR最低（表5，如Llama3.1在Alpaca-HarmBench上ASR为0%，优于原始模型的3.5%）；
基线局限性：SEAL因参考数据集含安全降级样本导致效果差，GradSafe忽略响应导致ASR低（Llama3.1-Alpaca-HEx-PHI上仅3.45%），Bi-Anchoring易受“对齐捷径”影响（攻击者可设计前10个token无害、后续有害的样本）。

2.4.4 Downstream Tasks Performance（下游任务性能）

性能保留：所有方法的下游任务分数与Random基线相差≤1%（表2），证明安全过滤不损害模型可用性；
安全优势：LARF是唯一在所有模型-任务中降低GPT分数（危害性）和ASR的方法，SEAL和Bi-Anchoring有时会提升危害性（如SEAL在Llama3-Magicoder上ASR为31.00%，高于Random的28.00%）；
大模型迁移性：Llama3-70B、Qwen2.5-32B/72B上，LARF仍能降低GPT分数和ASR（表6），证明方法通用性。

2.4.5 Further Analysis on Safety-degrading Data（安全降级数据进一步分析）

样本特征：安全降级样本多为长逐点响应（表4，如Llama3.1在Alpaca上的高分样本中516个为逐点响应，平均长度349 token，远高于数据集均值276个、138 token），推测此类响应破坏模型的安全拒绝习惯；
表示漂移：安全降级样本微调后，模型安全敏感层表示与原始模型漂移显著，安全样本微调后表示仍与原始模型聚类（图17）；
类别敏感性：微调安全降级样本后，“成人内容”“政治宣传”“虚假信息”“钓鱼犯罪”类ASR显著上升，“物理伤害”“非法活动”类ASR无明显变化（附录雷达图）。

2.5 Conclusion（结论）

总结核心发现：良性数据中的安全降级样本会显著损害LLM安全对齐；
方法有效性：LARF能高效精准识别安全降级样本，过滤后可缓解微调导致的安全对齐降级；
方法优势：无需额外训练数据或梯度计算，优于现有方法。

2.6 Limitations（局限性）

仅靠数据过滤无法完全防止安全降级，需与安全感知微调技术结合；
LARF效果依赖参考数据集质量，最优参考数据集选择需进一步研究；
尚未在视觉语言模型（VLMs）或扩散模型上验证，未来计划扩展至VLM（因VLMs微调中少量有害数据也会导致安全降级）。

2.7 References & Appendices（参考文献与附录）

参考文献：涵盖数据归因、表示工程、LLM安全微调等领域的关键工作；
附录：补充算法细节（Algorithm 1）、数据集构建细节（如(D_s)含110个“危险动词+良性意图”指令）、更多实验结果（如其他模型的安全敏感层、双向表示的有效性验证）。

3. 整体评价

核心思想：论文假设LLM存在对安全行为最敏感的“安全敏感层”，提出LARF通过识别该层并利用双向参考表示计算安全降级分数，实现良性微调数据的高效过滤，实验证明其在多模型、多数据集上能精准识别安全降级样本，过滤后可在保留下游性能的同时缓解LLM微调中的安全对齐降级。
未来方向：1. 结合LARF与安全感知微调技术，进一步提升LLM微调安全性；2. 优化参考数据集的构建策略，提升LARF对不同领域LLM的适配性；3. 将LARF扩展至VLMs、扩散模型等其他生成式AI模型；4. 探索安全敏感层的神经机制，为LLM安全对齐提供更底层的理论支撑。

Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment

1. 论文概览

2. 各章节详解

2.1 Introduction（引言）

2.2 Related work（相关工作）

2.2.1 Data Attribution Method（数据归因方法）

2.2.2 Representation Engineering（表示工程）

2.3 Method（方法）

2.3.1 Problem Formulation（问题定义）

2.3.2 Safety-sensitive Layers Identification（安全敏感层识别）

2.3.3 Bidirectional Representation Similarity Calculation（双向表示相似度计算）

2.4 Experiment（实验）

2.4.1 Experimental Setups（实验设置）

2.4.2 Safety-sensitive Layers Identification（安全敏感层识别结果）

2.4.3 Safety-degrading Data Selection（安全降级数据选择结果）

2.4.4 Downstream Tasks Performance（下游任务性能）

2.4.5 Further Analysis on Safety-degrading Data（安全降级数据进一步分析）

2.5 Conclusion（结论）

2.6 Limitations（局限性）

2.7 References & Appendices（参考文献与附录）

3. 整体评价