DeAL: Decoding-time Alignment for Large Language Models

DeAL: Decoding-time Alignment for Large Language Models

1. 论文概览

  • 核心问题:现有大语言模型(LLMs)的训练时对齐方法(如基于人类反馈的强化学习RLHF)存在无法整合多个自定义奖励、依赖开发者定义的静态通用原则、易被“越狱”等局限,需解决LLM在生成阶段灵活对齐用户自定义目标的问题。
  • 主要贡献:1. 提出DeAL框架,支持在解码阶段自定义奖励函数,实现LLM的解码时对齐;2. 支持编程可验证约束(如关键词、长度)与抽象对齐目标(如无害性、有帮助性)的模块化组合,能权衡多目标;3. 可与RLHF、提示技术等现有对齐策略互补,提升对齐效果,且能防御“越狱”攻击。
  • 研究方法:将LLM解码视为启发式引导的搜索过程,基于A*搜索算法构建搜索代理,结合起始状态调整(拆分提示为任务指令、对齐指令、任务输入)与动作选择(Top-k候选+前瞻机制),并将对齐奖励函数作为启发式,实现解码时对齐。

2. 各章节详解

2.1 引言 (Introduction)

  • 研究背景与动机:LLMs(如GPT、Llama、Mistral)无需大量任务特定微调即可处理翻译、摘要等任务,但难以对齐用户指定的动态/自定义目标。现有对齐方法多在训练阶段(如RLHF、监督微调SFT),存在两点局限:一是对齐目标静态且通用,需微调维护自定义模型,与用户意图可能冲突;二是训练阶段学习的原则在生成阶段未必遵守(如安全训练后的模型仍可被“越狱”)。
  • 本文目标:提出DeAL框架,在LLM解码阶段施加对齐目标,支持自定义奖励函数与多种对齐目标的灵活组合,提升对齐可靠性,且可与现有对齐策略互补。
  • 现有研究综述:1. 自然语言生成的搜索化研究:将生成视为搜索问题,采用A*搜索、前瞻策略及逻辑/有限状态自动机等约束,但未在LLM上验证效果,也未考虑对齐提示的影响;2. LLM对齐研究:主流为训练阶段对齐(如RLHF、偏好数据微调),部分解码时对齐方法仅为DeAL的特例(如基于毒性、有帮助性的参数化奖励,或推理/工具调用的编程约束),但未考虑对齐提示,也未支持奖励的模块化组合。
  • 本文定位:将生成搜索框架泛化到LLM,将对齐/系统提示作为搜索超参数,支持丰富的启发式奖励与模块化多对齐目标,统一现有搜索策略,填补“LLM解码时多目标灵活对齐”的研究空白。

2.3 方法论 (Methodology)

  • 核心方法/模型:将LLM对齐建模为搜索问题 (<S, V, T, R_{a}>),其中:
    • 状态空间 (S):token序列(如 (<v^1, v^2, …>));
    • 动作集 (V):LLM的词汇表;
    • 转移函数 (T):在当前token序列后添加一个token,生成新状态;
    • 对齐奖励函数 (R_a):定义对齐目标(如无害性、关键词覆盖)。
      搜索代理基于A*算法,核心包含“起始状态调整”与“动作选择”两大模块。
  • 技术细节
    1. 起始状态调整:将提示 (p) 拆分为任务指令 (p_t)、对齐指令 (p_a)、任务输入 (p_i),(p_a) 可通过自然语言表达对齐目标,作为搜索超参数手动选择,减少目标状态搜索成本;
    2. 动作选择:
      • 候选筛选:仅保留LLM预测的Top-k token作为候选动作,降低搜索空间;
      • 前瞻机制:对部分生成序列生成长度为 (l) 的延续(采用贪心策略),使启发式函数 (h(\cdot)) 能更可靠地评估对齐度(解决部分生成序列难以评分的问题);
      • 评分公式:选择下一个动作的评分 (c(y_t)=\log P(y_{1:t}|p)+\lambda h(y_{1:t+l},p)),其中 (\log P(y_{1:t}|p)) 是LLM的生成概率,(\lambda) 控制启发式(对齐目标)的权重;
    3. 奖励支持:可整合编程可验证约束(如关键词覆盖、长度)与参数化奖励模型(如基于HH-RLHF训练的无害性/有帮助性奖励模型)。

2.4 实验 (Experiments)

  • 实验设置
    1. 模型:MPT-7B-Instruct、Falcon-7B-Instruct、Dolly-v2-3B(均为指令微调模型,开源且许可宽松);
    2. 数据集:
      • 关键词约束:CommonGen(生成含3-5个指定关键词的连贯句子);
      • 长度约束:XSUM子集(生成≤10词的摘要,参考摘要≤10词,共176个测试样本);
      • 抽象对齐:HH-RLHF(含无害性/有帮助性标注的对话)、HarmfulQ(仅含恶意提示,用于测试“越狱”防御);
    3. 评估指标:
      • 关键词约束:软覆盖率(平均覆盖关键词比例)、硬覆盖率(完全覆盖关键词的样本比例);
      • 长度约束:长度满足度(符合≤10词的样本比例)、摘要质量(人类标注的忠实性、相关性、连贯性);
      • 抽象对齐:人类标注的无害性/有帮助性比例(部分用ChatGPT辅助,但以人类标注为准)。
  • 主要结果
    1. 关键词约束(表1):DeAL在所有模型上均提升覆盖率,平均软覆盖率+8%、硬覆盖率+17%,弱指令跟随模型(如Dolly-v2-3B)提升更显著(硬覆盖率+21%);
    2. 长度约束(表2):仅对齐提示((p_a))的长度满足度低,DeAL显著提升满足度,且“(p_a + DeAL)”组合在满足度最高的同时,摘要质量(忠实性、相关性、连贯性)与仅(p_a)无统计差异((p>>0.05));
    3. 抽象对齐(表3):DeAL(用联合奖励模型(R_{hh}))在HarmfulQ、HH-RLHF无害/有帮助测试集上的对齐效果,分别比安全提示高37%、24%、7%,且优于重排序策略;
    4. 多目标校准(表4):调整(R_{harmless})与(R_{helpful})的权重可控制生成结果的无害性/有帮助性,如(w_{harmless}=1, w_{helpful}=0)时HarmfulQ无害性100%,(w_{harmless}=0, w_{helpful}=1)时HH-RLHF有帮助性77%;
    5. 与RLHF结合(表5):DeAL在HarmfulQ上略优于RLHF(0.83 vs 0.80),RLHF在HH-RLHF有帮助性上更优(0.70 vs 0.53),二者结合(RLHF+DeAL)在两数据集上均达最佳(0.93、0.70);
    6. 防御“越狱”(表6):延续攻击(添加“Assistant: To do that,”)使安全提示的无害性降至20%,而DeAL((R_{harmless}))的无害性达73%。

2.5 讨论 (Discussion)

  • 结果分析:1. DeAL通过解码时启发式引导,解决了训练时对齐的“静态通用”“生成时失效”问题;2. 对齐提示((p_a))与模型指令跟随能力可提升DeAL的动作空间质量,如无(p_a)时长度约束任务的摘要质量下降;3. 模块化奖励支持灵活组合,可根据场景校准多目标权重;4. DeAL与RLHF互补,分别在解码/训练阶段生效,结合后提升对齐上限。
  • 局限性:1. 无法用于无输出logits访问权限的专有模型;2. 解码延迟高(无批量推理时,因前瞻和参数化奖励,比贪心解码慢2-5倍);3. 未深入探索不同解码策略组合及领域特定场景的优化。

2.6 结论 (Conclusion)

  • 总结:DeAL框架实现了LLM解码阶段的灵活对齐,支持自定义/多对齐目标,可与现有对齐策略(如RLHF、提示)互补,提升对齐可靠性,且在“越狱”防御等安全场景中效果显著。
  • 未来工作:1. 优化解码效率(如限制奖励函数类型、预编译语法、用蒸馏模型做前瞻);2. 探索不同解码策略组合及领域特定场景的适配;3. 深入研究解码时对齐的安全边界与攻击防御。

3. 整体评价

  • 核心贡献:提出DeAL框架,将LLM对齐从训练阶段扩展到解码阶段,实现自定义、模块化的多目标对齐,弥补了现有训练时对齐方法的灵活性与可靠性局限。
  • 适用场景:1. 需要自定义对齐目标的LLM应用(如含关键词/长度约束的内容生成、行业特定安全对话);2. 需与RLHF结合提升对齐效果的场景(如通用助手的无害性+有帮助性双目标优化);3. LLM“越狱”防御等安全敏感场景(如恶意提示过滤)。