Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

发表于 2025-10-29 分类于论文阅读，大模型，安全对齐本文字数： 5.5k 阅读时长 ≈ 10 分钟

Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

EMNLP

一、论文概览

1. 核心问题

大型语言模型（LLMs）在三种主要使用场景（基础模型BASE、监督微调模型SFT、知识编辑模型EDIT）中普遍存在安全漏洞，易受越狱攻击生成有害内容（如虚假信息、仇恨言论）；现有对齐方法难以应对动态用户意图与复杂目标，且微调或模型编辑可能进一步削弱安全机制，同时缺乏能覆盖三种场景且保留模型效用的统一安全对齐方案。

2. 主要贡献

提出SAFETY ARITHMETIC框架：一种无训练（training-free）的测试时安全对齐技术，通过“去除参数有害方向”和“引导 latent space 向安全响应”两阶段实现安全对齐，且不损害模型效用。
首次全面评估LLM三种使用场景的安全性：针对BASE、SFT、EDIT模型，验证框架在保留效用、缓解“过度安全”（over-safety）前提下的鲁棒性。
构建NOINTENTEDIT数据集：包含约40个“无意编辑实例”，这类实例本身无害，但用于模型编辑时会意外导致模型生成有害内容，填补了无意编辑安全风险评估的数据空白。

3. 研究方法

SAFETY ARITHMETIC包含两个核心阶段：

Harm Direction Removal（HDR，有害方向去除）：将“生成有害内容”视为特定任务，训练有害模型$\theta_{\mathcal{H}}$并计算“伤害向量”$\tau_{\mathcal{H}}=\theta_{\mathcal{H}}-\theta_b$（$\theta_b$为基础对齐模型），筛选向量中Top-k量级参数去除冗余后，通过$\hat{\theta}{t}=\theta{t}-\lambda * \tau_{\mathcal{H}}'$（$\theta_t$为目标模型，$\lambda$为超参数）调整目标模型参数，剥离有害方向。
Safety Alignment（Safe-Align，安全对齐）：基于上下文学习，构建包含“有害提示-有害回答”“有害提示-安全回答”的示例集$D_{icl}$，计算“上下文安全向量（ICV）”（即安全与有害提示 latent 表示差异的第一主成分），将ICV加权（$\alpha$为超参数）添加到$\hat{\theta}{t}$的所有层、所有token的 latent 状态中，并归一化以保留模型原有能力，最终得到安全模型$\theta{sf}$。

二、各章节详解

1. 1 Introduction（引言）

背景：LLMs（如GPT、PaLM）因大规模预训练具备多任务能力，但训练数据中的固有偏见、微调对有害行为的放大、编辑的意外风险，导致其易生成有害内容；现有对齐方法受动态目标限制，即使对齐后的模型仍易被越狱。
研究场景界定：明确LLM的三种核心使用场景——BASE（直接使用基础模型）、SFT（任务特定微调模型，如数学任务WizardMath、代码任务EvolCodeAlpaca）、EDIT（知识更新后的编辑模型，含“无意编辑”和“有意编辑”）。
研究问题：是否存在一种无训练框架，可高效处理三种场景的安全对齐并保留模型通用能力？
框架引入：提出SAFETY ARITHMETIC，通过HDR和Safe-Align两阶段实现无训练安全对齐，同时验证其对模型效用的无显著损害。

任务向量与模型融合：现有研究（如Task Arithmetic）通过参数插值、Fisher融合等实现多任务能力，但未聚焦安全方向；本文整合“安全向量”，通过任务向量变换解决参数交互中的安全鲁棒性问题。
上下文学习（ICL）：LLM对演示示例敏感，ICL可通过隐式贝叶斯推理或梯度下降近似引导模型响应；本文基于此设计“上下文安全向量（ICV）”，实现测试时的 latent space 安全引导。
LLM安全：现有研究分为“攻击策略”（如提示操纵）和“防御措施”（如RAIN），但缺乏覆盖多场景的统一方案；本文在防御基础上整合先进检测与伦理准则，提升真实场景下的安全性。

3. 3 SAFETY ARITHMETIC（框架细节）

3.1 Preliminaries（预备知识与符号定义）

核心符号：$\theta_b$（基础对齐模型，如llama2-7b-chat-hf）、$\theta_{sft}$（监督微调模型）、$\theta_{edit}$（编辑模型）、$\theta_t$（目标模型，可为三者之一）、$D_H$（有害问答数据集，用于训练$\theta_{\mathcal{H}}$）、$D_{icl}$（上下文安全示例集）、$\theta_{sf}$（SAFETY ARITHMETIC处理后的安全模型）。

3.2 Harm Direction Removal（HDR）

步骤1：用$D_H$微调与$\theta_b$同架构的模型，得到有害模型$\theta_{\mathcal{H}}$；
步骤2：计算伤害向量$\tau_{\mathcal{H}}=\theta_{\mathcal{H}}-\theta_b$（公式1）；
步骤3：筛选Top-k量级参数（$\mathcal{S}{k}=arg top{k}\left(\left|\tau_{\mathcal{H}}\right|\right)$，公式2），将其余参数置零得到$\tau_{\mathcal{H}}'$（公式3），减少对目标模型的过度干预；
步骤4：调整目标模型参数$\hat{\theta}{t}=\theta{t}-\lambda * \tau_{\mathcal{H}}'$（公式4），得到去除有害方向的中间模型$\hat{\theta}_{t}$。

3.3 Safety Alignment（Safe-Align）

步骤1：构建$D_{icl}$：对每个有害查询$q_h$，配对“有害提示$p_{usf}$（$q_h$+有害回答$a_h$）”和“安全提示$p_{sf}$（$q_h$+安全回答$a_s$）”；
步骤2：计算 latent 表示：将$p_{usf}$和$p_{sf}$输入$\hat{\theta}{t}$，提取所有层（L层）最后一个token的 latent 状态并拼接，得到$\mathscr{P}{usf}={h(p_{usf}^1),…,h(p_{usf}^{|P_{usf}|})}$（公式5）和$\mathscr{P}{sf}={h(p{sf}^1),…,h(p_{sf}^{|P_{sf}|})}$（公式6）；
步骤3：计算上下文安全向量ICV：将ICV视为目标函数$\mathcal{Y}=\frac{1}{|D_{icl}|}\sum_{p_{usf},p_{sf}}g(h,h(p_{usf}),h(p_{sf}))$（公式7）的最优解$h_{ICV} = arg max_
h (\mathcal{Y})$，采用$l_2$范数优化后，取$h(p_{sf}^i)-h(p_{usf}^i)$的第一主成分作为ICV；

其中$g(·)$定义为$\frac{1}{|\mathcal{D}{icl}|}\sum{i=1}^{|\mathcal{D}{icl}|}\left(h^{T}h( \mathsf{p}{\mathit{sf}})-h^{T}h(\mathsf{p}_{\mathit{usf}})\right)^{2}$
步骤4：调整 latent 状态：将ICV分段（$ICV^l$）加权添加到$\hat{\theta}{t}$所有层、所有token的 latent 状态（$(h{sf})_l^t=(h)l^t+\alpha * ICV^l$，公式9），并归一化以匹配原 latent 状态的$l_2$范数（公式10），得到$\theta{sf}$。

4. 4 Experimental setup（实验设置）

4.1 场景化框架应用

BASE模型：以llama2-7b-chat-hf、mistral-7b-instruct-v0.2为目标模型，直接应用HDR和Safe-Align；
SFT模型：覆盖数学任务（WizardMath-7B、LlamaMath）和代码任务（Llama-2-7b-evolcodealpaca），验证框架对微调模型的安全提升；
EDIT模型：基于ROME编辑方法，对llama2-7b-chat-hf进行“无意编辑”（编辑实例无害但引发有害生成）和“有意编辑”（编辑实例含有害信息），仅在编辑层及相邻层（$l-1,l,l+1$）应用HDR，减少对非编辑区域的干预。

4.2 数据与基线

核心数据：$D_H$和$D_{icl}$源于NicheHazardQA；评估数据集为AdvBench、DangerousQA、HarmfulQA、NicheHazardQA、HEx-PHI（覆盖有害提示的多领域场景）；新增NOINTENTEDIT数据集（约40个无意编辑实例）。
基线方法：Original（原始模型）、HDR†（仅HDR+TIES合并）、HDR‡（仅HDR+任务向量，无参数剪枝）、Safe-align（仅Safe-Align+ICV）。

4.3 评估指标与超参数

评估指标：攻击成功率（ASR）——GPT-4评估模型生成有害内容的比例；效用测试用MMLU、TruthfulQA、GSM8K等；过度安全测试用XS Test的“拒绝率”（对合规问题的拒绝回答比例）。
超参数：$\alpha=0.12$，$\lambda=2\sim3$，Top-k参数比例选择10%（平衡ASR与效用）。

5. 5 Impact of top k parameters（Top-k参数的影响）

实验发现：随k值（伤害向量中筛选的参数比例）增加，模型MMLU得分（通用能力指标）显著下降，ASR先降后稳；最终选择k=10%，既保证ASR低（安全），又避免模型通用能力退化。

6. 6 Results and discussions（结果与分析）

BASE模型：SAFETY ARITHMETIC显著降低ASR，如Llama2在AdvBench从19.81%（Original）降至6.15%，Mistral在HEx-PHI从54.55%降至35.15%，优于所有基线；
SFT模型：WizardMath在AdvBench的ASR从79.62%（Original）降至37.69%，LlamaMath在DangerousQA从27.00%降至6.00%，验证框架对微调模型的安全提升；
EDIT模型：无意编辑场景中，Llama2在NicheHazardQA的ASR从38.43%（Edited Model）降至2.09%；有意编辑场景中，HEx-PHI的ASR从45.45%降至7.27%，证明框架对编辑模型的安全修复能力。

7. 7 Utility and over-safety testing（效用与过度安全测试）

效用保留：SAFETY ARITHMETIC对模型性能无显著损害，如Llama2的MMLU得分从0.469（Base）降至0.456，WizardMath的GSM8K得分从0.820降至0.810；
过度安全缓解：Llama2的拒绝率从17.826（Base）降至8.696，WizardMath从6.087降至2.609，避免模型对合规问题的过度拒绝。

8. 8 Conclusion（结论）

总结SAFETY ARITHMETIC在LLM三种使用场景中的安全对齐有效性，提出未来优化方向：超参数（如$\lambda$、$\alpha$）调优、扩展更大参数规模模型（>7B）的验证。

9. 9 Limitation（局限性）

实验仅覆盖7B参数模型，未验证更大规模模型；
HDR中Top-k参数选择依赖经验，缺乏自适应机制；
Safe-Align中ICV添加到latent状态的比例需进一步优化。

10. 10-11 Ethical consideration & Potential risk（伦理与风险）

伦理：框架通过减少有害内容提升AI伦理应用，倡导研究者、政策制定者与产业界协作保障AI安全；
风险：论文中涉及的有害提示与生成内容存在被滥用的可能，需加强数据管控。

11. 附录（Appendix）

补充NOINTENTEDIT数据集的类别示例（如历史文化、社会科学等18类）、框架时间复杂度分析（ICV添加不改变Transformer的$O(L\cdot(T^2d+Td^2))$复杂度）、额外基线对比（如SafeDecoding、Self-CD）等。

三、一句话总结

论文假设存在无训练框架可高效处理LLM的BASE、SFT、EDIT三种场景安全对齐并保留效用，提出两阶段SAFETY ARITHMETIC框架（HDR通过伤害向量去除参数有害方向，Safe-Align通过ICV引导latent space向安全响应），实验显示该框架在五种数据集上显著降低ASR（如Llama2在AdvBench的ASR从19.81%降至6.15%）、保留模型效用且缓解过度安全，结论是其有效提升LLM在三种场景的安全性，性能优于现有基线方法。

Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

一、论文概览

1. 核心问题

2. 主要贡献

3. 研究方法

二、各章节详解

1. 1 Introduction（引言）

2. 2 Related work（相关工作）

3. 3 SAFETY ARITHMETIC（框架细节）

3.1 Preliminaries（预备知识与符号定义）

3.2 Harm Direction Removal（HDR）

3.3 Safety Alignment（Safe-Align）

4. 4 Experimental setup（实验设置）

4.1 场景化框架应用

4.2 数据与基线

4.3 评估指标与超参数

5. 5 Impact of top k parameters（Top-k参数的影响）

6. 6 Results and discussions（结果与分析）

7. 7 Utility and over-safety testing（效用与过度安全测试）

8. 8 Conclusion（结论）

9. 9 Limitation（局限性）

10. 10-11 Ethical consideration & Potential risk（伦理与风险）

11. 附录（Appendix）

三、一句话总结