Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment
Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment
1. 论文概览
- 核心问题:即使使用良性数据集微调对齐的大语言模型(LLMs),数据中仍可能存在难以识别的“安全降级样本”,导致模型安全对齐受损,现有方法(如毒性过滤器、梯度类方法)无法高效精准检测此类样本,需解决LLM微调中安全降级样本的识别与过滤问题。
- 主要贡献:1. 提出层感知表示过滤框架LARF,无需昂贵梯度计算或排序器训练,利用层表示敏感性高效定位良性数据中的安全降级样本;2. 检测性能领先,如Alpaca数据集上,LARF标记的底部1000样本微调Llama3.1时,HarmBench攻击成功率(ASR)从3.5%升至39%(优于Bi-Anchoring),顶部1000样本微调使ASR降至0%;3. 通用性强,过滤安全降级样本后,能在代码生成、数学推理、医疗问答等下游任务中缓解安全对齐降级,可作为部署前审计工具。
- 研究方法:LARF分两阶段:1. 安全敏感层识别:对LLM各层参数施加缩放因子,通过过度拒绝数据集(D_s)上的拒绝响应变化率,筛选出对安全最敏感的层;2. 安全降级数据过滤:基于安全敏感层,计算安全参考数据集(D_safe)和不安全参考数据集(D_unsafe)的平均表示,再通过样本与两类表示的余弦相似度差(安全降级分数)排序并过滤样本。
2. 各章节详解
2.1 Introduction(引言)
-
背景与问题:LLM的广泛应用使其安全对齐至关重要,但研究表明:即使注入少量有害问答对,或用Alpaca等良性数据集微调,均可能破坏模型安全防护;现有毒性过滤器(如LLaMa Guard、MD-Judge)仅能检测明显有害内容,无法识别“安全降级样本”(表面良性但削弱模型安全的样本);现有检测方法存在局限——Bi-Anchoring梯度相似性信号嘈杂、扩展性差,SEAL需额外训练排序器、计算开销大。
-
核心观察:LLM的安全拒绝行为集中于特定“安全敏感层”,此类样本在表示空间中更接近不安全样本(如图1,PCA投影显示安全降级样本(橙色)靠近不安全样本(红色),远离安全样本(绿色))。

-
内容小结:引出LARF方法的必要性,概述其两阶段逻辑,并预告论文后续对方法、实验及结果的阐述。
2.2 Related work(相关工作)
2.2.1 Data Attribution Method(数据归因方法)
- 作用:量化单个数据点对模型输出的影响,区别于语义 moderation分类器。
- 相关方法:
- GradSafe:基于模型安全敏感参数的梯度分类不安全指令;
- Bi-Gradient(He et al., 2024):受LESS启发,识别破坏安全对齐的良性数据;
- DABUF(Pan et al., 2025b):过滤越狱和偏见训练数据;
- SEAL(Shen et al., 2025):通过安全-有用性双层优化训练数据排序器,提升安全高质量样本权重。
2.2.2 Representation Engineering(表示工程)
- 核心发现:中间表示含丰富安全相关信息,可影响模型安全行为(如公平性、危害性)。
- 相关案例:
- Refusal Direction(Arditi et al., 2024):推理时操纵中间表示,可切换模型对有害提示的“拒绝/服从”响应;
- Circuit Breaker(Zou et al., 2024):重定向有害表示以防御对抗性攻击,证明表示对安全对齐的关键作用。
- 本文延伸:基于表示工程视角,提出数据驱动框架,利用中间表示量化并排序良性数据中的安全降级样本。
2.3 Method(方法)
2.3.1 Problem Formulation(问题定义)
- 样本定义:单个样本(d=(x,y)),其中(x)为指令,(y)为响应。
- 关键数据集:
- ($D_{unsafe}$):含(N)个有害指令,配对未审查模型生成的有害完成;
- ($D_{safe}$):与($D_{unsafe}$)指令相同,配对安全拒绝响应;
- ($D_s$):过度拒绝数据集,对参数变化敏感,用于识别安全敏感层;
- ($D_{test}$):待过滤的测试数据集。
- 模型层结构:设LLM含(L)个隐藏层,第(l)层注意力模块为($A_l$)、前馈模块为($F_l$),输入表示为($r_l$),输出表示为($r_{l+1}$),即$r_{l+1}=F_l(A_l(r_l))$。
2.3.2 Safety-sensitive Layers Identification(安全敏感层识别)
- 核心逻辑:过度拒绝(模型误拒良性输入)反映安全机制过度敏感,通过缩放各层参数,观察(D_s)上拒绝率变化,筛选变化最大的层为安全敏感层。
- 关键步骤:
- 参数缩放:对第(l)层,定义缩放后的注意力模块($A_l^{\pm}=(1\pm\alpha)A_l$)、前馈模块($F_l^{\pm}=(1\pm\alpha)F_l$),其中($\alpha\in{0.1,0.2}$)(α超过0.2会导致模型行为异常);
- 拒绝计数:计算缩放后模型在($D_s$)上的拒绝响应数($c_{ref}^+$)(增强层)和($c_{ref}^-$)(削弱层),定义拒绝数差($\Delta_l(\alpha)=c_{ref}^±c_{ref}^-$);
- 敏感度计算:归一化变化率($k_l=\max_{\alpha\in{0.1,0.2}}\frac{\Delta_l(\alpha)}{\alpha}$);
- 层选择:安全敏感层($l_s=\arg\max_{l=0,…,L-1}k_l$)(实验中Llama3/Llama3.1的($l_s=13$),Qwen2.5的($l_s=18$))。
2.3.3 Bidirectional Representation Similarity Calculation(双向表示相似度计算)
- 核心逻辑:利用安全敏感层的表示,结合($D_{safe}$)和($D_{unsafe}$)的参考表示,通过相似度差量化样本的安全降级程度(仅用单一参考会降低准确性)。
- 关键步骤:
- 参考表示提取:对($d\in D_{safe}\cup D_{unsafe}$),提取安全敏感层最终
token的隐藏状态,计算平均表示:
$$r_{safe}=\frac{1}{|D_{safe}|}\sum_{d\in D_{safe}}r_{l_s+1}(d)$$
$$r_{unsafe}=\frac{1}{|D_{unsafe}|}\sum_{d\in D_{unsafe}}r_{l_s+1}(d)$$ - 安全降级分数计算:对($d_i\in D_{test}$),提取表示($r_i=r_{l_s+1}(d_i)$),计算余弦相似度($s_{safe}(r_i)=\text{sim}(r_i,r_{safe})$)、($s_{unsafe}(r_i)=\text{sim}(r_i,r_{unsafe})$),最终分数:$$score_i=s_{unsafe}(r_i)-s_{safe}(r_i)$$
- 样本排序与过滤:按($score_i$)降序排序,高分样本为安全降级样本,需过滤;低分样本为安全样本,可用于微调。
- 参考表示提取:对($d\in D_{safe}\cup D_{unsafe}$),提取安全敏感层最终
2.4 Experiment(实验)
2.4.1 Experimental Setups(实验设置)
- 模型:主实验用Llama3-8B-Instruct、Llama3.1-8B-Instruct、Qwen2.5-7B-Instruct,附录验证Mistral-v0.2、Phi-3-mini、Qwen2及大模型(Llama3-70B、Qwen2.5-32B/72B);
- 数据集:
- 安全评估:HarmBench(Mazeika et al., 2024)、HEx-PHI(Qi et al., 2024)、DirectHarm4(Lyu et al., 2024,含恶意软件、毒品等4类高危害内容);
- 微调数据:Alpaca(Taori et al., 2023)、Dolly(Conover et al., 2023)、Magicoder(Wei et al., 2024)、PubMedQA(Jin et al., 2019)、MetaMath(Yu et al., 2023);
- 参考数据集:($D_{safe}$)和($D_{unsafe}$)从Circuit Breaker训练集中选取20类(含化学武器、网络犯罪等),每类5个样本构建;
- 评估指标:
- 安全评估:用LlamaGuard 3或GPT-4o(1-5分,5分为最有害),核心指标为攻击成功率(ASR,越高表示模型越不安全);
- 下游任务:Magicoder用HumanEval的pass@1,PubMedQA用测试集准确率,MetaMath用MATH的math_verify;
- 微调设置:LoRA训练(秩=8,α=8),3个epoch,批大小=8,学习率=1×10⁻⁴,热身比例=0.1。
2.4.2 Safety-sensitive Layers Identification(安全敏感层识别结果)
-
层敏感性验证:以Llama3为例(图4),第13层参数增强时拒绝响应显著增加,削弱时拒绝响应显著减少,其他层变化平缓;

-
层有效性验证:用11-31层表示选择Alpaca的1000个样本微调Llama3,第13层选择的样本微调后ASR最高(图5),证明安全敏感层在数据选择中的有效性;

-
表示特征:安全敏感层的($s_{safe}$)和($s_{unsafe}$)均值最低(图6),后续层中两类相似度均上升,表明安全相关特征在安全敏感层后被增强。

2.4.3 Safety-degrading Data Selection(安全降级数据选择结果)
- 基线对比:基线包括Random(随机选样)、SEAL(训练排序器)、GradSafe(仅用指令梯度)、Bi-Anchoring(梯度相似度差);
- 核心结果:
- 效率最优:LARF仅需1×18.4GB GPU内存,0.5小时完成Alpaca过滤,远优于SEAL(8 GPU,6小时)、GradSafe(1 GPU,5.3小时)、Bi-Anchoring(4 GPU,3小时)(表3);
- 检测性能最优:所有模型-数据集组合中,LARF选择的安全降级样本(高分)微调后ASR最高(表1,如Llama3在Alpaca-DirectHarm4上ASR达52.00%,优于SEAL的26.75%、Bi-Anchoring的49.00%);
- 过滤有效性:LARF选择的安全样本(低分)微调后ASR最低(表5,如Llama3.1在Alpaca-HarmBench上ASR为0%,优于原始模型的3.5%);
- 基线局限性:SEAL因参考数据集含安全降级样本导致效果差,GradSafe忽略响应导致ASR低(Llama3.1-Alpaca-HEx-PHI上仅3.45%),Bi-Anchoring易受“对齐捷径”影响(攻击者可设计前10个token无害、后续有害的样本)。
2.4.4 Downstream Tasks Performance(下游任务性能)
- 性能保留:所有方法的下游任务分数与Random基线相差≤1%(表2),证明安全过滤不损害模型可用性;
- 安全优势:LARF是唯一在所有模型-任务中降低GPT分数(危害性)和ASR的方法,SEAL和Bi-Anchoring有时会提升危害性(如SEAL在Llama3-Magicoder上ASR为31.00%,高于Random的28.00%);
- 大模型迁移性:Llama3-70B、Qwen2.5-32B/72B上,LARF仍能降低GPT分数和ASR(表6),证明方法通用性。
2.4.5 Further Analysis on Safety-degrading Data(安全降级数据进一步分析)
- 样本特征:安全降级样本多为长逐点响应(表4,如Llama3.1在Alpaca上的高分样本中516个为逐点响应,平均长度349 token,远高于数据集均值276个、138 token),推测此类响应破坏模型的安全拒绝习惯;
- 表示漂移:安全降级样本微调后,模型安全敏感层表示与原始模型漂移显著,安全样本微调后表示仍与原始模型聚类(图17);
- 类别敏感性:微调安全降级样本后,“成人内容”“政治宣传”“虚假信息”“钓鱼犯罪”类ASR显著上升,“物理伤害”“非法活动”类ASR无明显变化(附录雷达图)。
2.5 Conclusion(结论)
- 总结核心发现:良性数据中的安全降级样本会显著损害LLM安全对齐;
- 方法有效性:LARF能高效精准识别安全降级样本,过滤后可缓解微调导致的安全对齐降级;
- 方法优势:无需额外训练数据或梯度计算,优于现有方法。
2.6 Limitations(局限性)
- 仅靠数据过滤无法完全防止安全降级,需与安全感知微调技术结合;
- LARF效果依赖参考数据集质量,最优参考数据集选择需进一步研究;
- 尚未在视觉语言模型(VLMs)或扩散模型上验证,未来计划扩展至VLM(因VLMs微调中少量有害数据也会导致安全降级)。
2.7 References & Appendices(参考文献与附录)
- 参考文献:涵盖数据归因、表示工程、LLM安全微调等领域的关键工作;
- 附录:补充算法细节(Algorithm 1)、数据集构建细节(如(D_s)含110个“危险动词+良性意图”指令)、更多实验结果(如其他模型的安全敏感层、双向表示的有效性验证)。
3. 整体评价
- 核心思想:论文假设LLM存在对安全行为最敏感的“安全敏感层”,提出LARF通过识别该层并利用双向参考表示计算安全降级分数,实现良性微调数据的高效过滤,实验证明其在多模型、多数据集上能精准识别安全降级样本,过滤后可在保留下游性能的同时缓解LLM微调中的安全对齐降级。
- 未来方向:1. 结合LARF与安全感知微调技术,进一步提升LLM微调安全性;2. 优化参考数据集的构建策略,提升LARF对不同领域LLM的适配性;3. 将LARF扩展至VLMs、扩散模型等其他生成式AI模型;4. 探索安全敏感层的神经机制,为LLM安全对齐提供更底层的理论支撑。