InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

发表于 2025-10-29 分类于论文阅读，大模型，安全对齐本文字数： 5.2k 阅读时长 ≈ 9 分钟

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

EMNLP

1. 论文概览

核心问题：当前大语言模型（LLMs）的训练时对齐方法（如SFT、RLHF）复杂且资源消耗大，现有推理时对齐方法效果差且影响下游任务，同时缺乏针对多模态大语言模型（MLLMs）的无害性对齐方法及评估数据集。
主要贡献：1. 提出InferAligner，一种无需训练的推理时对齐方法，能有效提升模型安全性且保持下游任务性能，无对齐模型时也可使用；2. 首次探索MLLMs的无害性对齐，构建首个多模态安全研究数据集MM-Harmful Bench；3. 实验验证InferAligner在金融、医疗、数学领域模型及MLLMs（如LLaVA）上均有效，显著降低有害指令与越狱攻击的攻击成功率（ASR）。
研究方法：提取安全对齐模型的安全引导向量（SSVs），推理时通过目标模型的安全相关向量（SRVs）判断输入是否有害，若有害则在指定Transformer层添加SSVs调整激活值，引导目标模型生成无害响应。

2. 各章节详解

2.1 摘要

背景：LLMs广泛应用于通用助手及定制化场景，对齐是其成功的关键，但现有训练时对齐方法（SFT、RLHF）复杂繁琐。
方法：提出InferAligner，一种推理时无害性对齐方法，利用安全对齐模型提取的SSVs调整目标模型对有害输入的激活值。
结果：InferAligner可有效应用于金融、医疗、数学领域模型及MLLMs（如LLaVA），显著降低有害指令与越狱攻击的ASR，同时几乎不影响下游任务性能。

2.2 1. 引言

LLM发展现状：LLMs（如GPT、LLaMA）成为AI应用基础，开源或API可访问的基础模型可微调为定制化目标模型，但需通过对齐确保符合人类价值观，本文聚焦无害性对齐。
现有对齐方法局限：
- 训练时对齐（SFT、RLHF）：对齐效果好，但训练流程复杂、需大量资源，实施难度高。
- 现有推理时对齐：如输入添加对齐提示、目标模型自身激活值偏移，对齐效果弱且严重影响下游任务性能。
本文方案：提出InferAligner，通过跨模型引导实现推理时无害性对齐，流程为：用对话模板构建有害/无害提示，计算两者最后token激活值差异得到SRVs，将无害对齐模型的SRVs作为SSVs；推理时用目标模型SRVs判断输入意图，有害则添加SSVs调整激活值，引导生成无害响应。

2.3 2. 相关工作

2.3.1 LLM对齐

分类：训练时对齐与推理时对齐。
- 训练时对齐：通过SFT（利用标注数据微调）或RLHF（基于人类反馈的强化学习）实现，需多样代表性数据集及大量训练资源，流程复杂。
- 推理时对齐：无需复杂训练，如输入添加对齐提示、目标模型自身激活值偏移，但对齐效果弱且影响下游任务性能。
本文目标：提出有效推理时对齐方法，兼顾对齐效果与下游任务性能。

2.3.2 LLM安全问题

安全隐患：LLMs存在生成有害内容的风险，如亵渎、暴力描述等。
越狱攻击：通过精心设计提示（如角色扮演、权限提升、注意力转移）诱导LLMs生成有害响应，凸显无害性对齐的紧迫性。

2.3.3 激活工程

定义：通过对模型激活值进行针对性扰动实现对齐的技术，如提取高层概念对应的表征引导模型行为。
现有方法：
- ITI（推理时干预）：用线性探针识别“真实”注意力头，沿探针方向偏移激活值以生成真实输出。
- RepE（表征工程）：从特定概念数据集的激活值中生成“读取向量”，引导模型行为。
本文创新：首次将激活工程用于推理时无害性对齐，采用跨模型引导（用对齐模型的SSVs）而非目标模型自身向量。

2.4 3. 方法

3.1 安全相关向量（SRV）

核心思想：通过有害与无害提示的最后token激活值差异，提取能感知输入意图、引导输出向无害方向偏移的SRVs。
计算过程：
1. 给定有害提示数据集(D^-)（含N个有害提示(P_i^-)）和无害提示数据集(D^+)（含N个无害提示(P_j^+)）。
2. 计算层l的激活值平均差异：$$v_l’ = \frac{1}{N} \sum_{i=1}^{N} a_l(P_i^-) - \frac{1}{N} \sum_{j=1}^{N} a_l(P_j^+)$$，其中(a_l(P))表示提示P在层l的最后token激活值。
3. 对(v_l’)归一化得到SRV：$$v_l = \frac{v_l’}{|v_l’|}$$。
关键定义：将无害对齐模型提取的SRVs定义为安全引导向量（SSVs）。

3.2 InferAligner

核心假设：未对齐/弱对齐的目标模型可能具备感知有害意图的能力，但无法有效利用；无害对齐模型已掌握有害输入响应方式，其SSVs可引导目标模型对齐。
实现流程：
1. 输入意图判断（引导门）：用目标模型的SRVs判断输入是否有害，层l的引导门(g_l)计算如下：$$g_l = \begin{cases}1 & \text{if } a_l(P)^T s_l + b_l > 0 \ 0 & \text{otherwise} \end{cases}$$，其中(s_l)是目标模型层l的SRV，(b_l)是意图边界偏置（计算为所有训练样本在(s_l)上的负投影均值，可灵活调整以控制无害性严格程度）；实际使用中可选择最准确的(g_0)作为所有层的引导门。
2. 激活值调整：对需调整的Transformer层集合(L_G)（ heuristic选择目标模型与对齐模型中能准确判断有害意图的层），层l的激活值调整公式为：$$x_l = x_l’ + \alpha \cdot g_l \cdot \theta_l$$，其中(x_l’)是原始激活值，(x_l)是调整后激活值，(\alpha)是干预强度（通过超参数搜索确定），(\theta_l)是对齐模型层l的SSV。
参数说明：InferAligner含三类参数——(b_l)（意图边界）、(\alpha)（干预强度）、(L_G)（需调整的层）。

2.5 4. 实验设置

4.1 数据集

数据集类型	来源与构成
SRV构建数据集	有害指令：AdvBench的520条（含亵渎、暴力等）；无害指令：TruthfulQA生成子集的817条中随机抽520条；各抽64条用于提取SRV/SSV，剩余用于有害性测试。
领域微调数据集	金融：Yang等的指令微调数据+1万条UltraChat对话；医疗：MEDQA（含患者档案与医疗问题）+同等对话；数学：GSM8K训练集（侧重推理过程）+同等对话。
安全评估数据集	1. 有害性测试集：上述剩余有害指令；2. 越狱测试集：10种越狱提示（角色扮演、权限提升等）×50条有害指令=500条；3. 多模态有害测试集（MM-Harmful Bench）：100条需图文结合的有害指令，含10类恶意意图（歧视、盗窃等）。
效用评估数据集	金融：FPB、FiQA SA（情感分析）、Headline（判断任务）；医疗：MEDQA测试集；数学：GSM8K测试集。

4.2 评估指标

有害性指标：攻击成功率（ASR），即生成有害响应的指令占比；LLM用GPT-3.5 turbo判断，MLLM用GPT-4V判断。
效用指标：下游任务准确率（Acc.），如情感分析、选择题、数学推理等任务的正确率。

4.3 实现细节

基础模型：主要基于LLaMA2-7B，微调后得到领域模型DS-LLaMA2；MLLM用LLaVA-v1.5（基于Vicuna微调，Vicuna源自LLaMA2指令微调）。
微调参数：DS-LLaMA2微调2轮，AdamW优化器，学习率2e-5，批大小128，最大序列长度2048，8张A800 GPU。
SSV来源：从LLaMA2-CHAT（安全对齐模型）提取SSV；参数确定：通过初步实验确定（如(\alpha=4.0)，InternLM-Chat因对齐差设为8.0）；解码：最大序列长度256，贪心解码（保证可复现性）。

2.6 5. 实验结果

5.1 基线模型

DS-LLaMA2-CHAT：LLaMA2-CHAT（经多轮SFT/RLHF）微调领域数据，继承无害性。
DS-LLaMA2+Safety SFT：LLaMA2用领域数据+100条安全样本（基于GPT-3.5 turbo生成）微调，训练时对齐基线。
DS-LLaMA2+Self-Reminder：推理时添加Li等的提示，推理时对齐基线。
DS-LLaMA2+Goal Priority：推理时添加Zhang等的提示（优先无害性），推理时对齐基线。

5.2 主要结果（领域模型）

模型	金融领域（ASR/越狱ASR/Acc.）	医疗领域（ASR/越狱ASR/Acc.）	数学领域（ASR/越狱ASR/Acc.）
DS-LLaMA2-CHAT	0.7%/1.0%/93.7%	0.2%/1.4%/40.6%	0.7%/2.6%/36.8%
DS-LLaMA2	38.4%/48.2%/92.9%	31.6%/21.4%/42.7%	36.8%/42.2%/39.0%
DS-LLaMA2+Safety SFT	0.7%/13.4%/92.9%	0.0%/0.6%/40.1%	0.2%/14.0%/36.7%
DS-LLaMA2+Self-Reminder	25.0%/34.8%/92.8%	29.2%/25.8%/43.4%	14.9%/37.2%/38.0%
DS-LLaMA2+Goal Priority	21.3%/25.8%/92.4%	11.0%/13.6%/43.8%	7.5%/4.2%/39.3%
DS-LLaMA2+InferAligner	0.0%/0.2%/92.9%	0.0%/0.0%/42.7%	0.0%/0.0%/39.0%

结论：1. InferAligner优于所有基线，ASR接近0，且保持下游Acc.；2. 训练时对齐模型（如DS-LLaMA2-CHAT、DS-LLaMA2+Safety SFT）因“对齐税”导致医疗/数学领域Acc.下降；3. 推理时对齐方法中，Goal Priority在数学模型上效果较好，但整体弱于InferAligner。

5.3 多模态模型结果（LLaVA）

原始性能：LLaVA-7B/13B在MM-Harmful Bench上ASR高（未经过训练时对齐）。
InferAligner效果：添加LLaMA2-CHAT的SSVs后，可拒绝所有多模态有害指令，响应连贯且能说明拒绝理由。
推理时间：InferAligner无上下文长度增加，推理时间不受影响；Goal Priority因提示长导致推理速度显著下降。

2.7 6. 分析

6.1 消融研究（SSV来源）

目标模型自身SRV作为SSV：添加SSV无法有效降低ASR；减去SSV虽降低ASR，但响应意图模糊（安全分数2.5-3.5，1=极不安全，5=极安全），无法有效对齐。
对齐模型（LLaMA2-CHAT）的SSV：添加SSV可显著降低ASR，且响应意图清晰、安全分数高；减去SSV会增加响应有害性，间接证明SSV有效性。

6.2 可扩展性与适应性

模型规模：InferAligner在LLaMA2-7B/13B上均有效。
模型系列：在Qwen-7B（用Qwen-7B-Chat的SSV）、InternLM-7B（用InternLM-7B-Chat的SSV）上均有效，证明通用性。

6.3 无安全对齐模型时的方案

替代方案：InferAlignerSIMPLE，引导门激活时用预设通用模板拒绝响应。
局限性：InferAligner可提供拒绝理由，更符合Askell等的无害性定义，因此优先推荐InferAligner。

2.8 7. 结论

总结：InferAligner是一种推理时跨模型引导的无害性对齐方法，通过提取安全对齐模型的SSVs，在推理时判断输入有害性并调整目标模型激活值，实现无害性引导。
效果：在金融、医疗、数学领域模型及MLLMs（LLaVA）上均有效，显著降低有害指令与越狱攻击的ASR，同时几乎不影响下游任务性能。

3. 整体评价

核心思想：针对现有LLM对齐方法复杂、资源消耗大或效果差的问题，提出InferAligner，通过跨模型引导的激活值调整实现推理时无害性对齐，实验验证其在多领域、多模型系列及多模态场景下的有效性，兼顾安全性与下游任务性能。
未来方向：1. 将SSVs作为训练时监督信号，引导基础模型原生安全对齐；2. 扩展InferAligner至更多模型系列（如GPT系列、ChatGLM）及模态（如音频、视频）；3. 为InferAligner的参数（如(\alpha)、(L_G)）提供理论层面的最优值推导依据。