论文阅读——Don’t Say No: Jailbreaking LLM by Suppressing Refusal

发表于 2025-05-26 分类于论文阅读，大模型，越狱本文字数： 2.6k 阅读时长 ≈ 5 分钟

论文概况

通讯作者：Wenjie Wang：wangwj1@shanghaitech.edu.cn

作者院校：上海科技大学、中国科学技术大学、浙江大学

发表于：arXiv

大型语言模型（LLMs）通过RLHF、模型微调等技术实现安全对齐，但仍面临越狱攻击（Jailbreaking）威胁，攻击者通过精心设计的输入诱导模型生成有害内容。这样的传统方法存在限制，现有方法（如GCG）通过优化对抗后缀最大化肯定响应（如“Sure, here is…”），但存在两大问题：

关键词匹配（Refusal Matching）：通过检测响应的前若干个长度是否不包含拒绝关键词（如“Sorry”）来判断攻击成功与否，但存在高误判率（见Table 2）。这是由于如果选定的检测长度过短，这个指标会忽视后续的拒绝内容，而过长则会将有害内容后面的拒绝内容检测到。

Unlikelihood损失：降低模型生成预定义拒绝关键词的概率： ℒ_Un(p, q) = −∑_ip_ilog(1 − q_i)

$$ \mathcal{L}_{\text{refusal}}(x_{1:n}) = \sum_{y \in RKL} \sum_{i=n+1}^{n+H-RTL(y)} \mathcal{L}_{Un}(y,x_{i:i+RTL(y)}) $$ 其中，RKL为拒绝关键词列表（如“sorry, i cannot”, “unethical”），RTL为每个拒绝关键词的长度。该式的含义是在给定输入的条件下，对于拒绝关键词列表里的每个拒绝关键词，限定输出长度区间内的每一个RTL长度的窗口都要最小化Unlikelihood损失。

余弦衰减加权（Cosine Decay）：对生成序列的前几个token赋予更高权重，缓解Token Shift： $$ CD(i) = 0.5 + 0.5 \cos\left(\frac{i}{H} \cdot \frac{\pi}{2}\right) $$ 其中i表示第i个token，H是序列长度。加权后生成目标响应的概率为： $$ p_{CD}(x_{n+1:n+H}|x_{1:n}) = \prod_{i=1}^H CD(i) \cdot p(x_{n+i}|x_{1:n+i-1}) $$
肯定响应损失： ℒ_affirmative(x_1 : n) = −log p_CD(x̂_{n + 1 : n + H}|x_1 : n) 该式的含义是在给定输入的条件下，最大化尽早生成指定输出的概率。

ℒ_DSN(x_1 : n) = ℒ_affirmative(x_1 : n) + α ⋅ ℒ_refusal(x_1 : n)

adv^* ← argminℒ_DSN(x_1 : n ⊕ adv)

目标为找到使综合损失最小的后缀adv*。

模块	功能
NLI矛盾检测	使用自然语言推理模型检测响应中的语义矛盾，越大说明越低的回复连续性（算法1）
HarmBench评估器	基于微调的Llama-2分类器判断有害性
GPT-4评估器	通过提示工程判断生成内容是否符合攻击目标

将输出划分为n个句子，计算每个句子与用户提问的一致性，以及句子之间的关系，然后根据句子长度加权得到总的矛盾得分，与预设阈值比较。

评估方法	准确率（%）	AUC	F1
Refusal Matching	74	0.72	0.79
NLI	80	0.80	0.81
集成评估	82	0.79	0.86

模型	GCG（ASR%）	DSN（ASR%）	提升幅度
Llama2-13B	24	38	+58%
Vicuna-13B	89	95	+7%
Mistral-7B	92	98	+6%

本文通过改进损失函数和评估方法，显著提升了越狱攻击的效果和评估可靠性。未来方向包括： - 将DSN扩展至多模态攻击 - 探索动态拒绝关键词生成 - 结合对抗训练提升模型鲁棒性

TODO：

改一下device，支持多卡