Language Model Probabilities are Not Calibrated in Numeric Contexts
Language Model Probabilities are Not Calibrated in Numeric Contexts
论文概览
本文假设语言模型(LM)的输出概率应与文本语境中隐含或明确的数值概率分布校准,通过设计三个模板数据集、采用概率质量(PM)、Wasserstein距离(WD)、相对熵(RE)等指标,对开源和专有模型展开评估,发现所有测试模型在数值语境下均校准不佳,存在词身份、词顺序、数字频率相关的系统偏差,最终得出语言模型难以在数值场景中合理分配概率质量,用于概率决策存在显著风险的结论。
核心问题
研究语言模型在包含数值信息的文本语境中,输出概率是否能与语境定义的概率分布保持校准——即对于语境指示的候选令牌集合T = {t1, t2, ..., tn}及其对应概率P = {p1, p2, ..., pn},模型输出的概率Π = {π1, π2, ..., πn}需满足pi ∝ πi(i ∈ 1, 2, ..., n),核心是验证模型能否将数值信息转化为对应的概率分配。
主要贡献
- 指令微调虽能提升模型在相关候选选项上的概率质量(PM),但模型整体仍校准不佳,部分表现甚至落后于简单基线模型。
- 指令微调会导致模型输出分布的熵降低,出现“模式坍缩”(mode collapse),过度集中概率于少数选项。
- 模型存在系统性偏差,词的身份(如颜色词汇)和呈现顺序会显著影响概率分配,甚至覆盖语境中的数值信息。
- 训练数据中数字令牌的频率与模型校准效果存在相关性,频率差异会调制模型的概率分配行为。
研究方法
数据集设计
构建三个模板化数据集,覆盖不同数值规模和任务场景: - colors:5个模板,3种数值尺度(1-10、10-100、100-999),110种颜色选项排列,核心任务是根据大理石数量预测抽取颜色的概率。 - wordproblems:10个模板,与colors共享数值尺度,包含4-10组选项对(如云杉/雪松、护士/医生),任务是基于数量或概率语境选择对应选项。 - distributions:5个模板,320组区间定义,任务是从均匀分布的区间中选择整数,需模型输出均匀概率分配。
评估指标
- 概率质量(PM):衡量模型将概率分配给相关候选选项的程度,PM(T) ≐ ∑t ∈ Tπt,PM≥0.75时才具备进一步评估校准的意义。
- Wasserstein距离(WD):量化模型概率分布Π与理想分布P的差异,距离越小校准效果越好。
- 相对熵(RE):RE = H(Π) − H(P),RE < 0表示模型概率过度集中,RE > 0表示过度扩散。
模型与基线
- 测试模型:8个开源模型(含基础版和指令微调版,如Llama-3.1-8B、Mistral-7B系列)和4个专有模型(GPT-3.5、GPT-4-turbo等)。
- 参考行为与基线:定义6类模型行为(Null、Calibrated、Pick Higher等),并设置Pick Higherp = 0.7、随机基线(Randomτ)等作为对比基准。
章节详解
1. 引言
明确研究背景:语言模型的输出需匹配语境中的自然分布(如公平硬币正反面概率相等),但数值训练数据的频率差异、数学推理能力局限等可能导致校准问题。通过示例(98个蓝大理石和99个红大理石的抽取概率预测)直观展示模型校准偏差(如GPT-4o将红大理石的预测概率定为99.7%,而理想值为50.2%),并定义校准的数学关系pi ∝ πi,强调校准对推荐系统、医疗预测等场景的重要性。
2. 相关工作
梳理三大研究脉络: - 模型置信度与预测准确性的校准(Guo et al., 2017),现有研究对GPT系列校准效果存在争议; - 语言校准(Mielke et al., 2022),聚焦模型不确定性与文本表达的对齐,发现模型难以体现内部不确定性; - 语言模型的随机性与偏差(Van Koevering and Kleinberg, 2024),已有研究表明模型在硬币翻转、均匀分布生成中存在偏差,且受选项顺序影响。本文与现有工作的区别在于,专门聚焦数值语境下的概率分布校准,而非单纯的数学推理或置信度对齐。
3. 实验设计
详细说明问题设置、指标定义、模型选择、数据集构造及基线设计: - 问题设置:明确候选令牌集合T与理想概率P的定义,处理令牌化差异(如“red”“Red”的概率求和); - 行为分类:将模型行为分为6类,通过平衡数值组合的示例集来判定模型的主导行为; - 实验可复现性:提供数据集、模板和代码的公开链接,说明实验硬件需求(P4de-24服务器,约48小时运行时间)。
4. 实验结果
核心发现如下: - 概率质量(PM):指令微调模型的PM显著高于基础版(多数≥0.75),说明模型能理解任务核心,但GPT系列在wordproblems数据集上PM较低(0.46-0.60); - 校准效果(WD):所有模型的校准效果均落后于Pick Higherp = 0.7基线,wordproblems数据集中所有模型均不如简单基线,distributions数据集中仅Mistral-7B-v0.1优于Pick First基线; - 相对熵(RE):所有模型的RE均显著小于0(除Mistral-7B-v0.1在distributions数据集),表明普遍存在模式坍缩,概率过度集中。
5. 分析:选项身份与顺序
以colors数据集为核心,发现模型存在系统性偏差: - 词顺序影响:GPT-4o-mini倾向选择第一个选项,Llama-3.1-8B倾向选择第二个选项,与数值信息无关; - 词身份调制:颜色词汇的固有属性会与顺序交互,如“white”作为第一个选项时模型倾向Pick Higher,作为第二个选项时倾向Pick First; - 模型间差异:GPT系列和gemma-2-27B主导行为为Pick Higher,其他模型多表现为Pick First/Second,且相似模型(如GPT-4o与GPT-4o-mini)的偏差模式具有相关性。
6. 分析:数字令牌频率
探究训练数据中数字出现频率对校准的影响: - 频率近似:采用Dolma语料库的n-gram频率作为模型训练数据中数字频率的代理; - 相关性结果:基础模型中,数字频率差距(Frequency Gap)越大,校准效果越差(正相关);指令微调模型中则呈现负相关(频率差距越大,校准越好); - 结论:数字频率是影响校准的重要因素,且该偏差未随模型规模提升而消除,但需进一步验证因果关系。
7. 结论、局限性与潜在风险
- 结论:所有测试模型在数值语境下校准不佳,受词身份、顺序、数字频率的系统偏差影响,难以合理分配概率质量;
- 局限性:数据集的模板多样性和数字范围有限,采用相关性分析而非因果验证,未涉及更复杂的概率概念(如贝叶斯定理);
- 潜在风险:本文不直接构成风险,而是揭示了未校准模型在概率决策场景(如医疗、推荐)中的应用风险。