Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

EMNLP

一、论文概览

1. 核心问题

大型语言模型(LLMs)在三种主要使用场景(基础模型BASE、监督微调模型SFT、知识编辑模型EDIT)中普遍存在安全漏洞,易受越狱攻击生成有害内容(如虚假信息、仇恨言论);现有对齐方法难以应对动态用户意图与复杂目标,且微调或模型编辑可能进一步削弱安全机制,同时缺乏能覆盖三种场景且保留模型效用的统一安全对齐方案。

2. 主要贡献

  • 提出SAFETY ARITHMETIC框架:一种无训练(training-free)的测试时安全对齐技术,通过“去除参数有害方向”和“引导 latent space 向安全响应”两阶段实现安全对齐,且不损害模型效用。
  • 首次全面评估LLM三种使用场景的安全性:针对BASE、SFT、EDIT模型,验证框架在保留效用、缓解“过度安全”(over-safety)前提下的鲁棒性。
  • 构建NOINTENTEDIT数据集:包含约40个“无意编辑实例”,这类实例本身无害,但用于模型编辑时会意外导致模型生成有害内容,填补了无意编辑安全风险评估的数据空白。

3. 研究方法

SAFETY ARITHMETIC包含两个核心阶段:

  • Harm Direction Removal(HDR,有害方向去除):将“生成有害内容”视为特定任务,训练有害模型$\theta_{\mathcal{H}}$并计算“伤害向量”$\tau_{\mathcal{H}}=\theta_{\mathcal{H}}-\theta_b$($\theta_b$为基础对齐模型),筛选向量中Top-k量级参数去除冗余后,通过$\hat{\theta}{t}=\theta{t}-\lambda * \tau_{\mathcal{H}}'$($\theta_t$为目标模型,$\lambda$为超参数)调整目标模型参数,剥离有害方向。
  • Safety Alignment(Safe-Align,安全对齐):基于上下文学习,构建包含“有害提示-有害回答”“有害提示-安全回答”的示例集$D_{icl}$,计算“上下文安全向量(ICV)”(即安全与有害提示 latent 表示差异的第一主成分),将ICV加权($\alpha$为超参数)添加到$\hat{\theta}{t}$的所有层、所有token的 latent 状态中,并归一化以保留模型原有能力,最终得到安全模型$\theta{sf}$。

二、各章节详解

1. 1 Introduction(引言)

  • 背景:LLMs(如GPT、PaLM)因大规模预训练具备多任务能力,但训练数据中的固有偏见、微调对有害行为的放大、编辑的意外风险,导致其易生成有害内容;现有对齐方法受动态目标限制,即使对齐后的模型仍易被越狱。
  • 研究场景界定:明确LLM的三种核心使用场景——BASE(直接使用基础模型)、SFT(任务特定微调模型,如数学任务WizardMath、代码任务EvolCodeAlpaca)、EDIT(知识更新后的编辑模型,含“无意编辑”和“有意编辑”)。
  • 研究问题:是否存在一种无训练框架,可高效处理三种场景的安全对齐并保留模型通用能力?
  • 框架引入:提出SAFETY ARITHMETIC,通过HDR和Safe-Align两阶段实现无训练安全对齐,同时验证其对模型效用的无显著损害。
  • 任务向量与模型融合:现有研究(如Task Arithmetic)通过参数插值、Fisher融合等实现多任务能力,但未聚焦安全方向;本文整合“安全向量”,通过任务向量变换解决参数交互中的安全鲁棒性问题。
  • 上下文学习(ICL):LLM对演示示例敏感,ICL可通过隐式贝叶斯推理或梯度下降近似引导模型响应;本文基于此设计“上下文安全向量(ICV)”,实现测试时的 latent space 安全引导。
  • LLM安全:现有研究分为“攻击策略”(如提示操纵)和“防御措施”(如RAIN),但缺乏覆盖多场景的统一方案;本文在防御基础上整合先进检测与伦理准则,提升真实场景下的安全性。

3. 3 SAFETY ARITHMETIC(框架细节)

3.1 Preliminaries(预备知识与符号定义)

  • 核心符号:$\theta_b$(基础对齐模型,如llama2-7b-chat-hf)、$\theta_{sft}$(监督微调模型)、$\theta_{edit}$(编辑模型)、$\theta_t$(目标模型,可为三者之一)、$D_H$(有害问答数据集,用于训练$\theta_{\mathcal{H}}$)、$D_{icl}$(上下文安全示例集)、$\theta_{sf}$(SAFETY ARITHMETIC处理后的安全模型)。

3.2 Harm Direction Removal(HDR)

  • 步骤1:用$D_H$微调与$\theta_b$同架构的模型,得到有害模型$\theta_{\mathcal{H}}$;
  • 步骤2:计算伤害向量$\tau_{\mathcal{H}}=\theta_{\mathcal{H}}-\theta_b$(公式1);
  • 步骤3:筛选Top-k量级参数($\mathcal{S}{k}=arg top{k}\left(\left|\tau_{\mathcal{H}}\right|\right)$,公式2),将其余参数置零得到$\tau_{\mathcal{H}}'$(公式3),减少对目标模型的过度干预;
  • 步骤4:调整目标模型参数$\hat{\theta}{t}=\theta{t}-\lambda * \tau_{\mathcal{H}}'$(公式4),得到去除有害方向的中间模型$\hat{\theta}_{t}$。

3.3 Safety Alignment(Safe-Align)

  • 步骤1:构建$D_{icl}$:对每个有害查询$q_h$,配对“有害提示$p_{usf}$($q_h$+有害回答$a_h$)”和“安全提示$p_{sf}$($q_h$+安全回答$a_s$)”;

  • 步骤2:计算 latent 表示:将$p_{usf}$和$p_{sf}$输入$\hat{\theta}{t}$,提取所有层(L层)最后一个token的 latent 状态并拼接,得到$\mathscr{P}{usf}={h(p_{usf}^1),…,h(p_{usf}^{|P_{usf}|})}$(公式5)和$\mathscr{P}{sf}={h(p{sf}^1),…,h(p_{sf}^{|P_{sf}|})}$(公式6);

  • 步骤3:计算上下文安全向量ICV:将ICV视为目标函数$\mathcal{Y}=\frac{1}{|D_{icl}|}\sum_{p_{usf},p_{sf}}g(h,h(p_{usf}),h(p_{sf}))$(公式7)的最优解$h_{ICV} = arg max_
    h (\mathcal{Y})$,采用$l_2$范数优化后,取$h(p_{sf}^i)-h(p_{usf}^i)$的第一主成分作为ICV;

    其中$g(·)$定义为$\frac{1}{|\mathcal{D}{icl}|}\sum{i=1}^{|\mathcal{D}{icl}|}\left(h^{T}h( \mathsf{p}{\mathit{sf}})-h^{T}h(\mathsf{p}_{\mathit{usf}})\right)^{2}$

  • 步骤4:调整 latent 状态:将ICV分段($ICV^l$)加权添加到$\hat{\theta}{t}$所有层、所有token的 latent 状态($(h{sf})_l^t=(h)l^t+\alpha * ICV^l$,公式9),并归一化以匹配原 latent 状态的$l_2$范数(公式10),得到$\theta{sf}$。

4. 4 Experimental setup(实验设置)

4.1 场景化框架应用

  • BASE模型:以llama2-7b-chat-hf、mistral-7b-instruct-v0.2为目标模型,直接应用HDR和Safe-Align;
  • SFT模型:覆盖数学任务(WizardMath-7B、LlamaMath)和代码任务(Llama-2-7b-evolcodealpaca),验证框架对微调模型的安全提升;
  • EDIT模型:基于ROME编辑方法,对llama2-7b-chat-hf进行“无意编辑”(编辑实例无害但引发有害生成)和“有意编辑”(编辑实例含有害信息),仅在编辑层及相邻层($l-1,l,l+1$)应用HDR,减少对非编辑区域的干预。

4.2 数据与基线

  • 核心数据:$D_H$和$D_{icl}$源于NicheHazardQA;评估数据集为AdvBench、DangerousQA、HarmfulQA、NicheHazardQA、HEx-PHI(覆盖有害提示的多领域场景);新增NOINTENTEDIT数据集(约40个无意编辑实例)。
  • 基线方法:Original(原始模型)、HDR†(仅HDR+TIES合并)、HDR‡(仅HDR+任务向量,无参数剪枝)、Safe-align(仅Safe-Align+ICV)。

4.3 评估指标与超参数

  • 评估指标:攻击成功率(ASR)——GPT-4评估模型生成有害内容的比例;效用测试用MMLU、TruthfulQA、GSM8K等;过度安全测试用XS Test的“拒绝率”(对合规问题的拒绝回答比例)。
  • 超参数:$\alpha=0.12$,$\lambda=2\sim3$,Top-k参数比例选择10%(平衡ASR与效用)。

5. 5 Impact of top k parameters(Top-k参数的影响)

  • 实验发现:随k值(伤害向量中筛选的参数比例)增加,模型MMLU得分(通用能力指标)显著下降,ASR先降后稳;最终选择k=10%,既保证ASR低(安全),又避免模型通用能力退化。

6. 6 Results and discussions(结果与分析)

  • BASE模型:SAFETY ARITHMETIC显著降低ASR,如Llama2在AdvBench从19.81%(Original)降至6.15%,Mistral在HEx-PHI从54.55%降至35.15%,优于所有基线;
  • SFT模型:WizardMath在AdvBench的ASR从79.62%(Original)降至37.69%,LlamaMath在DangerousQA从27.00%降至6.00%,验证框架对微调模型的安全提升;
  • EDIT模型:无意编辑场景中,Llama2在NicheHazardQA的ASR从38.43%(Edited Model)降至2.09%;有意编辑场景中,HEx-PHI的ASR从45.45%降至7.27%,证明框架对编辑模型的安全修复能力。

7. 7 Utility and over-safety testing(效用与过度安全测试)

  • 效用保留:SAFETY ARITHMETIC对模型性能无显著损害,如Llama2的MMLU得分从0.469(Base)降至0.456,WizardMath的GSM8K得分从0.820降至0.810;
  • 过度安全缓解:Llama2的拒绝率从17.826(Base)降至8.696,WizardMath从6.087降至2.609,避免模型对合规问题的过度拒绝。

8. 8 Conclusion(结论)

总结SAFETY ARITHMETIC在LLM三种使用场景中的安全对齐有效性,提出未来优化方向:超参数(如$\lambda$、$\alpha$)调优、扩展更大参数规模模型(>7B)的验证。

9. 9 Limitation(局限性)

  • 实验仅覆盖7B参数模型,未验证更大规模模型;
  • HDR中Top-k参数选择依赖经验,缺乏自适应机制;
  • Safe-Align中ICV添加到latent状态的比例需进一步优化。

10. 10-11 Ethical consideration & Potential risk(伦理与风险)

  • 伦理:框架通过减少有害内容提升AI伦理应用,倡导研究者、政策制定者与产业界协作保障AI安全;
  • 风险:论文中涉及的有害提示与生成内容存在被滥用的可能,需加强数据管控。

11. 附录(Appendix)

补充NOINTENTEDIT数据集的类别示例(如历史文化、社会科学等18类)、框架时间复杂度分析(ICV添加不改变Transformer的$O(L\cdot(T^2d+Td^2))$复杂度)、额外基线对比(如SafeDecoding、Self-CD)等。

三、一句话总结

论文假设存在无训练框架可高效处理LLM的BASE、SFT、EDIT三种场景安全对齐并保留效用,提出两阶段SAFETY ARITHMETIC框架(HDR通过伤害向量去除参数有害方向,Safe-Align通过ICV引导latent space向安全响应),实验显示该框架在五种数据集上显著降低ASR(如Llama2在AdvBench的ASR从19.81%降至6.15%)、保留模型效用且缓解过度安全,结论是其有效提升LLM在三种场景的安全性,性能优于现有基线方法。