InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance

EMNLP

1. 论文概览

  • 核心问题:当前大语言模型(LLMs)的训练时对齐方法(如SFT、RLHF)复杂且资源消耗大,现有推理时对齐方法效果差且影响下游任务,同时缺乏针对多模态大语言模型(MLLMs)的无害性对齐方法及评估数据集。
  • 主要贡献:1. 提出InferAligner,一种无需训练的推理时对齐方法,能有效提升模型安全性且保持下游任务性能,无对齐模型时也可使用;2. 首次探索MLLMs的无害性对齐,构建首个多模态安全研究数据集MM-Harmful Bench;3. 实验验证InferAligner在金融、医疗、数学领域模型及MLLMs(如LLaVA)上均有效,显著降低有害指令与越狱攻击的攻击成功率(ASR)。
  • 研究方法:提取安全对齐模型的安全引导向量(SSVs),推理时通过目标模型的安全相关向量(SRVs)判断输入是否有害,若有害则在指定Transformer层添加SSVs调整激活值,引导目标模型生成无害响应。

2. 各章节详解

2.1 摘要

  • 背景:LLMs广泛应用于通用助手及定制化场景,对齐是其成功的关键,但现有训练时对齐方法(SFT、RLHF)复杂繁琐。
  • 方法:提出InferAligner,一种推理时无害性对齐方法,利用安全对齐模型提取的SSVs调整目标模型对有害输入的激活值。
  • 结果:InferAligner可有效应用于金融、医疗、数学领域模型及MLLMs(如LLaVA),显著降低有害指令与越狱攻击的ASR,同时几乎不影响下游任务性能。

2.2 1. 引言

  • LLM发展现状:LLMs(如GPT、LLaMA)成为AI应用基础,开源或API可访问的基础模型可微调为定制化目标模型,但需通过对齐确保符合人类价值观,本文聚焦无害性对齐。
  • 现有对齐方法局限:
    • 训练时对齐(SFT、RLHF):对齐效果好,但训练流程复杂、需大量资源,实施难度高。
    • 现有推理时对齐:如输入添加对齐提示、目标模型自身激活值偏移,对齐效果弱且严重影响下游任务性能。
  • 本文方案:提出InferAligner,通过跨模型引导实现推理时无害性对齐,流程为:用对话模板构建有害/无害提示,计算两者最后token激活值差异得到SRVs,将无害对齐模型的SRVs作为SSVs;推理时用目标模型SRVs判断输入意图,有害则添加SSVs调整激活值,引导生成无害响应。

2.3 2. 相关工作

2.3.1 LLM对齐

  • 分类:训练时对齐与推理时对齐。
    • 训练时对齐:通过SFT(利用标注数据微调)或RLHF(基于人类反馈的强化学习)实现,需多样代表性数据集及大量训练资源,流程复杂。
    • 推理时对齐:无需复杂训练,如输入添加对齐提示、目标模型自身激活值偏移,但对齐效果弱且影响下游任务性能。
  • 本文目标:提出有效推理时对齐方法,兼顾对齐效果与下游任务性能。

2.3.2 LLM安全问题

  • 安全隐患:LLMs存在生成有害内容的风险,如亵渎、暴力描述等。
  • 越狱攻击:通过精心设计提示(如角色扮演、权限提升、注意力转移)诱导LLMs生成有害响应,凸显无害性对齐的紧迫性。

2.3.3 激活工程

  • 定义:通过对模型激活值进行针对性扰动实现对齐的技术,如提取高层概念对应的表征引导模型行为。
  • 现有方法:
    • ITI(推理时干预):用线性探针识别“真实”注意力头,沿探针方向偏移激活值以生成真实输出。
    • RepE(表征工程):从特定概念数据集的激活值中生成“读取向量”,引导模型行为。
  • 本文创新:首次将激活工程用于推理时无害性对齐,采用跨模型引导(用对齐模型的SSVs)而非目标模型自身向量。

2.4 3. 方法

3.1 安全相关向量(SRV)

  • 核心思想:通过有害与无害提示的最后token激活值差异,提取能感知输入意图、引导输出向无害方向偏移的SRVs。
  • 计算过程:
    1. 给定有害提示数据集(D^-)(含N个有害提示(P_i^-))和无害提示数据集(D^+)(含N个无害提示(P_j^+))。
    2. 计算层l的激活值平均差异:$$v_l’ = \frac{1}{N} \sum_{i=1}^{N} a_l(P_i^-) - \frac{1}{N} \sum_{j=1}^{N} a_l(P_j^+)$$,其中(a_l(P))表示提示P在层l的最后token激活值。
    3. 对(v_l’)归一化得到SRV:$$v_l = \frac{v_l’}{|v_l’|}$$。
  • 关键定义:将无害对齐模型提取的SRVs定义为安全引导向量(SSVs)。

3.2 InferAligner

  • 核心假设:未对齐/弱对齐的目标模型可能具备感知有害意图的能力,但无法有效利用;无害对齐模型已掌握有害输入响应方式,其SSVs可引导目标模型对齐。
  • 实现流程:
    1. 输入意图判断(引导门):用目标模型的SRVs判断输入是否有害,层l的引导门(g_l)计算如下:$$g_l = \begin{cases}1 & \text{if } a_l(P)^T s_l + b_l > 0 \ 0 & \text{otherwise} \end{cases}$$,其中(s_l)是目标模型层l的SRV,(b_l)是意图边界偏置(计算为所有训练样本在(s_l)上的负投影均值,可灵活调整以控制无害性严格程度);实际使用中可选择最准确的(g_0)作为所有层的引导门。
    2. 激活值调整:对需调整的Transformer层集合(L_G)( heuristic选择目标模型与对齐模型中能准确判断有害意图的层),层l的激活值调整公式为:$$x_l = x_l’ + \alpha \cdot g_l \cdot \theta_l$$,其中(x_l’)是原始激活值,(x_l)是调整后激活值,(\alpha)是干预强度(通过超参数搜索确定),(\theta_l)是对齐模型层l的SSV。
  • 参数说明:InferAligner含三类参数——(b_l)(意图边界)、(\alpha)(干预强度)、(L_G)(需调整的层)。

2.5 4. 实验设置

4.1 数据集

数据集类型 来源与构成
SRV构建数据集 有害指令:AdvBench的520条(含亵渎、暴力等);无害指令:TruthfulQA生成子集的817条中随机抽520条;各抽64条用于提取SRV/SSV,剩余用于有害性测试。
领域微调数据集 金融:Yang等的指令微调数据+1万条UltraChat对话;医疗:MEDQA(含患者档案与医疗问题)+同等对话;数学:GSM8K训练集(侧重推理过程)+同等对话。
安全评估数据集 1. 有害性测试集:上述剩余有害指令;2. 越狱测试集:10种越狱提示(角色扮演、权限提升等)×50条有害指令=500条;3. 多模态有害测试集(MM-Harmful Bench):100条需图文结合的有害指令,含10类恶意意图(歧视、盗窃等)。
效用评估数据集 金融:FPB、FiQA SA(情感分析)、Headline(判断任务);医疗:MEDQA测试集;数学:GSM8K测试集。

4.2 评估指标

  • 有害性指标:攻击成功率(ASR),即生成有害响应的指令占比;LLM用GPT-3.5 turbo判断,MLLM用GPT-4V判断。
  • 效用指标:下游任务准确率(Acc.),如情感分析、选择题、数学推理等任务的正确率。

4.3 实现细节

  • 基础模型:主要基于LLaMA2-7B,微调后得到领域模型DS-LLaMA2;MLLM用LLaVA-v1.5(基于Vicuna微调,Vicuna源自LLaMA2指令微调)。
  • 微调参数:DS-LLaMA2微调2轮,AdamW优化器,学习率2e-5,批大小128,最大序列长度2048,8张A800 GPU。
  • SSV来源:从LLaMA2-CHAT(安全对齐模型)提取SSV;参数确定:通过初步实验确定(如(\alpha=4.0),InternLM-Chat因对齐差设为8.0);解码:最大序列长度256,贪心解码(保证可复现性)。

2.6 5. 实验结果

5.1 基线模型

  1. DS-LLaMA2-CHAT:LLaMA2-CHAT(经多轮SFT/RLHF)微调领域数据,继承无害性。
  2. DS-LLaMA2+Safety SFT:LLaMA2用领域数据+100条安全样本(基于GPT-3.5 turbo生成)微调,训练时对齐基线。
  3. DS-LLaMA2+Self-Reminder:推理时添加Li等的提示,推理时对齐基线。
  4. DS-LLaMA2+Goal Priority:推理时添加Zhang等的提示(优先无害性),推理时对齐基线。

5.2 主要结果(领域模型)

模型 金融领域(ASR/越狱ASR/Acc.) 医疗领域(ASR/越狱ASR/Acc.) 数学领域(ASR/越狱ASR/Acc.)
DS-LLaMA2-CHAT 0.7%/1.0%/93.7% 0.2%/1.4%/40.6% 0.7%/2.6%/36.8%
DS-LLaMA2 38.4%/48.2%/92.9% 31.6%/21.4%/42.7% 36.8%/42.2%/39.0%
DS-LLaMA2+Safety SFT 0.7%/13.4%/92.9% 0.0%/0.6%/40.1% 0.2%/14.0%/36.7%
DS-LLaMA2+Self-Reminder 25.0%/34.8%/92.8% 29.2%/25.8%/43.4% 14.9%/37.2%/38.0%
DS-LLaMA2+Goal Priority 21.3%/25.8%/92.4% 11.0%/13.6%/43.8% 7.5%/4.2%/39.3%
DS-LLaMA2+InferAligner 0.0%/0.2%/92.9% 0.0%/0.0%/42.7% 0.0%/0.0%/39.0%
  • 结论:1. InferAligner优于所有基线,ASR接近0,且保持下游Acc.;2. 训练时对齐模型(如DS-LLaMA2-CHAT、DS-LLaMA2+Safety SFT)因“对齐税”导致医疗/数学领域Acc.下降;3. 推理时对齐方法中,Goal Priority在数学模型上效果较好,但整体弱于InferAligner。

5.3 多模态模型结果(LLaVA)

  • 原始性能:LLaVA-7B/13B在MM-Harmful Bench上ASR高(未经过训练时对齐)。
  • InferAligner效果:添加LLaMA2-CHAT的SSVs后,可拒绝所有多模态有害指令,响应连贯且能说明拒绝理由。
  • 推理时间:InferAligner无上下文长度增加,推理时间不受影响;Goal Priority因提示长导致推理速度显著下降。

2.7 6. 分析

6.1 消融研究(SSV来源)

  • 目标模型自身SRV作为SSV:添加SSV无法有效降低ASR;减去SSV虽降低ASR,但响应意图模糊(安全分数2.5-3.5,1=极不安全,5=极安全),无法有效对齐。
  • 对齐模型(LLaMA2-CHAT)的SSV:添加SSV可显著降低ASR,且响应意图清晰、安全分数高;减去SSV会增加响应有害性,间接证明SSV有效性。

6.2 可扩展性与适应性

  • 模型规模:InferAligner在LLaMA2-7B/13B上均有效。
  • 模型系列:在Qwen-7B(用Qwen-7B-Chat的SSV)、InternLM-7B(用InternLM-7B-Chat的SSV)上均有效,证明通用性。

6.3 无安全对齐模型时的方案

  • 替代方案:InferAlignerSIMPLE,引导门激活时用预设通用模板拒绝响应。
  • 局限性:InferAligner可提供拒绝理由,更符合Askell等的无害性定义,因此优先推荐InferAligner。

2.8 7. 结论

  • 总结:InferAligner是一种推理时跨模型引导的无害性对齐方法,通过提取安全对齐模型的SSVs,在推理时判断输入有害性并调整目标模型激活值,实现无害性引导。
  • 效果:在金融、医疗、数学领域模型及MLLMs(LLaVA)上均有效,显著降低有害指令与越狱攻击的ASR,同时几乎不影响下游任务性能。

3. 整体评价

  • 核心思想:针对现有LLM对齐方法复杂、资源消耗大或效果差的问题,提出InferAligner,通过跨模型引导的激活值调整实现推理时无害性对齐,实验验证其在多领域、多模型系列及多模态场景下的有效性,兼顾安全性与下游任务性能。
  • 未来方向:1. 将SSVs作为训练时监督信号,引导基础模型原生安全对齐;2. 扩展InferAligner至更多模型系列(如GPT系列、ChatGLM)及模态(如音频、视频);3. 为InferAligner的参数(如(\alpha)、(L_G))提供理论层面的最优值推导依据。