DeAL: Decoding-time Alignment for Large Language Models

发表于 2025-10-29 更新于 2025-10-28 分类于论文阅读，大模型，安全对齐本文字数： 3.3k 阅读时长 ≈ 6 分钟

DeAL: Decoding-time Alignment for Large Language Models

1. 论文概览

核心问题：现有大语言模型（LLMs）的训练时对齐方法（如基于人类反馈的强化学习RLHF）存在无法整合多个自定义奖励、依赖开发者定义的静态通用原则、易被“越狱”等局限，需解决LLM在生成阶段灵活对齐用户自定义目标的问题。
主要贡献：1. 提出DeAL框架，支持在解码阶段自定义奖励函数，实现LLM的解码时对齐；2. 支持编程可验证约束（如关键词、长度）与抽象对齐目标（如无害性、有帮助性）的模块化组合，能权衡多目标；3. 可与RLHF、提示技术等现有对齐策略互补，提升对齐效果，且能防御“越狱”攻击。
研究方法：将LLM解码视为启发式引导的搜索过程，基于A*搜索算法构建搜索代理，结合起始状态调整（拆分提示为任务指令、对齐指令、任务输入）与动作选择（Top-k候选+前瞻机制），并将对齐奖励函数作为启发式，实现解码时对齐。

2. 各章节详解

2.1 引言 (Introduction)

研究背景与动机：LLMs（如GPT、Llama、Mistral）无需大量任务特定微调即可处理翻译、摘要等任务，但难以对齐用户指定的动态/自定义目标。现有对齐方法多在训练阶段（如RLHF、监督微调SFT），存在两点局限：一是对齐目标静态且通用，需微调维护自定义模型，与用户意图可能冲突；二是训练阶段学习的原则在生成阶段未必遵守（如安全训练后的模型仍可被“越狱”）。
本文目标：提出DeAL框架，在LLM解码阶段施加对齐目标，支持自定义奖励函数与多种对齐目标的灵活组合，提升对齐可靠性，且可与现有对齐策略互补。

现有研究综述：1. 自然语言生成的搜索化研究：将生成视为搜索问题，采用A*搜索、前瞻策略及逻辑/有限状态自动机等约束，但未在LLM上验证效果，也未考虑对齐提示的影响；2. LLM对齐研究：主流为训练阶段对齐（如RLHF、偏好数据微调），部分解码时对齐方法仅为DeAL的特例（如基于毒性、有帮助性的参数化奖励，或推理/工具调用的编程约束），但未考虑对齐提示，也未支持奖励的模块化组合。
本文定位：将生成搜索框架泛化到LLM，将对齐/系统提示作为搜索超参数，支持丰富的启发式奖励与模块化多对齐目标，统一现有搜索策略，填补“LLM解码时多目标灵活对齐”的研究空白。

2.3 方法论 (Methodology)

核心方法/模型：将LLM对齐建模为搜索问题 (<S, V, T, R_{a}>)，其中：
- 状态空间 (S)：token序列（如 (<v^1, v^2, …>)）；
- 动作集 (V)：LLM的词汇表；
- 转移函数 (T)：在当前token序列后添加一个token，生成新状态；
- 对齐奖励函数 (R_a)：定义对齐目标（如无害性、关键词覆盖）。
  搜索代理基于A*算法，核心包含“起始状态调整”与“动作选择”两大模块。
技术细节：
1. 起始状态调整：将提示 (p) 拆分为任务指令 (p_t)、对齐指令 (p_a)、任务输入 (p_i)，(p_a) 可通过自然语言表达对齐目标，作为搜索超参数手动选择，减少目标状态搜索成本；
2. 动作选择：
  - 候选筛选：仅保留LLM预测的Top-k token作为候选动作，降低搜索空间；
  - 前瞻机制：对部分生成序列生成长度为 (l) 的延续（采用贪心策略），使启发式函数 (h(\cdot)) 能更可靠地评估对齐度（解决部分生成序列难以评分的问题）；
  - 评分公式：选择下一个动作的评分 (c(y_t)=\log P(y_{1:t}|p)+\lambda h(y_{1:t+l},p))，其中 (\log P(y_{1:t}|p)) 是LLM的生成概率，(\lambda) 控制启发式（对齐目标）的权重；
3. 奖励支持：可整合编程可验证约束（如关键词覆盖、长度）与参数化奖励模型（如基于HH-RLHF训练的无害性/有帮助性奖励模型）。

2.4 实验 (Experiments)

实验设置：
1. 模型：MPT-7B-Instruct、Falcon-7B-Instruct、Dolly-v2-3B（均为指令微调模型，开源且许可宽松）；
2. 数据集：
  - 关键词约束：CommonGen（生成含3-5个指定关键词的连贯句子）；
  - 长度约束：XSUM子集（生成≤10词的摘要，参考摘要≤10词，共176个测试样本）；
  - 抽象对齐：HH-RLHF（含无害性/有帮助性标注的对话）、HarmfulQ（仅含恶意提示，用于测试“越狱”防御）；
3. 评估指标：
  - 关键词约束：软覆盖率（平均覆盖关键词比例）、硬覆盖率（完全覆盖关键词的样本比例）；
  - 长度约束：长度满足度（符合≤10词的样本比例）、摘要质量（人类标注的忠实性、相关性、连贯性）；
  - 抽象对齐：人类标注的无害性/有帮助性比例（部分用ChatGPT辅助，但以人类标注为准）。
主要结果：
1. 关键词约束（表1）：DeAL在所有模型上均提升覆盖率，平均软覆盖率+8%、硬覆盖率+17%，弱指令跟随模型（如Dolly-v2-3B）提升更显著（硬覆盖率+21%）；
2. 长度约束（表2）：仅对齐提示（(p_a)）的长度满足度低，DeAL显著提升满足度，且“(p_a + DeAL)”组合在满足度最高的同时，摘要质量（忠实性、相关性、连贯性）与仅(p_a)无统计差异（(p>>0.05)）；
3. 抽象对齐（表3）：DeAL（用联合奖励模型(R_{hh})）在HarmfulQ、HH-RLHF无害/有帮助测试集上的对齐效果，分别比安全提示高37%、24%、7%，且优于重排序策略；
4. 多目标校准（表4）：调整(R_{harmless})与(R_{helpful})的权重可控制生成结果的无害性/有帮助性，如(w_{harmless}=1, w_{helpful}=0)时HarmfulQ无害性100%，(w_{harmless}=0, w_{helpful}=1)时HH-RLHF有帮助性77%；
5. 与RLHF结合（表5）：DeAL在HarmfulQ上略优于RLHF（0.83 vs 0.80），RLHF在HH-RLHF有帮助性上更优（0.70 vs 0.53），二者结合（RLHF+DeAL）在两数据集上均达最佳（0.93、0.70）；
6. 防御“越狱”（表6）：延续攻击（添加“Assistant: To do that,”）使安全提示的无害性降至20%，而DeAL（(R_{harmless})）的无害性达73%。

2.5 讨论 (Discussion)

结果分析：1. DeAL通过解码时启发式引导，解决了训练时对齐的“静态通用”“生成时失效”问题；2. 对齐提示（(p_a)）与模型指令跟随能力可提升DeAL的动作空间质量，如无(p_a)时长度约束任务的摘要质量下降；3. 模块化奖励支持灵活组合，可根据场景校准多目标权重；4. DeAL与RLHF互补，分别在解码/训练阶段生效，结合后提升对齐上限。
局限性：1. 无法用于无输出logits访问权限的专有模型；2. 解码延迟高（无批量推理时，因前瞻和参数化奖励，比贪心解码慢2-5倍）；3. 未深入探索不同解码策略组合及领域特定场景的优化。

2.6 结论 (Conclusion)

总结：DeAL框架实现了LLM解码阶段的灵活对齐，支持自定义/多对齐目标，可与现有对齐策略（如RLHF、提示）互补，提升对齐可靠性，且在“越狱”防御等安全场景中效果显著。
未来工作：1. 优化解码效率（如限制奖励函数类型、预编译语法、用蒸馏模型做前瞻）；2. 探索不同解码策略组合及领域特定场景的适配；3. 深入研究解码时对齐的安全边界与攻击防御。

3. 整体评价

核心贡献：提出DeAL框架，将LLM对齐从训练阶段扩展到解码阶段，实现自定义、模块化的多目标对齐，弥补了现有训练时对齐方法的灵活性与可靠性局限。
适用场景：1. 需要自定义对齐目标的LLM应用（如含关键词/长度约束的内容生成、行业特定安全对话）；2. 需与RLHF结合提升对齐效果的场景（如通用助手的无害性+有帮助性双目标优化）；3. LLM“越狱”防御等安全敏感场景（如恶意提示过滤）。

DeAL: Decoding-time Alignment for Large Language Models

1. 论文概览

2. 各章节详解

2.1 引言 (Introduction)

2.2 相关工作 (Related Work)

2.3 方法论 (Methodology)

2.4 实验 (Experiments)

2.5 讨论 (Discussion)

2.6 结论 (Conclusion)

3. 整体评价