One fish, two fish, but not the whole sea: Alignment reduces language models’ conceptual diversity

One fish, two fish, but not the whole sea: Alignment reduces language models’ conceptual diversity

论文概览

本文假设训练后对齐(RLHF/RLAIF)会影响大型语言模型(LLMs)的概念多样性,通过温度调节和提示词操纵模拟LLM群体,在词-颜色关联和概念相似性判断两个领域评估10个开源7B参数模型(含非对齐与对齐变体),发现所有模型均未达到人类级概念多样性,且对齐模型的概念多样性普遍低于非对齐模型,最终得出对齐与概念多样性之间存在权衡、使用LLM替代人类被试需谨慎的结论。

核心问题

  1. 现代LLMs是否能捕捉人类群体的概念多样性(即个体在概念表征上的变异性)?
  2. 训练后对齐技术(RLHF/RLAIF)如何影响LLMs捕捉人类群体响应分布中概念多样性的能力?

主要贡献

  1. 提出了结合个体内部变异性与群体水平变异性的概念多样性测量框架,适配无标准答案、难以参数化的复杂概念领域。
  2. 在两个有丰富人类行为数据的领域(词-颜色关联、概念相似性判断),系统对比了非对齐与对齐LLM的概念多样性差异,为对齐技术的副作用提供了实证支持。
  3. 验证了提示词操纵(而非温度调节)对提升LLM概念多样性更有效,为优化LLM模拟人类群体的方法提供了参考。
  4. 警示了LLM替代人类被试的潜在局限,强调需充分理解对齐与概念多样性的权衡关系。

研究方法

  1. LLM群体模拟:采用两种主流操纵方式
    • 温度调节:测试默认温度及1.5、2.0等高温度值,通过提升softmax熵增加输出多样性。
    • 提示词操纵:设计4种条件(无提示、人格提示、随机提示、无意义提示),其中人格提示包含种族、性别、年龄等人口统计学特征。
  2. 评估领域与指标
    • 词-颜色关联:使用CIELAB空间的感知相似度ΔE,计算个体内部变异性ΔEinternal和群体变异性ΔEpopulation,通过异质性指标$d_{w}=\frac{1}{S} \sum_{s \in S} \frac{\left|\Delta E_{internal }(s)-\Delta E_{population }(s)\right|}{\sqrt{2}}$衡量概念多样性。
    • 概念相似性判断:采用中文餐厅过程(CRP)聚类模型,估计群体中存在多概念表征的概率P(multiple concepts)作为多样性指标。
  3. 模型与基线
    • 模型:5对开源7B参数模型(Mistral、Gemma、Llama家族),涵盖RLHF(PPO)和RLAIF(DPO/APA)两种对齐方式。
    • 人类基线:采用已有研究中人类在两个领域的行为数据(词-颜色关联异质性基线15.82;概念相似性判断中“动物”类P = 0.43、“政治家”类P = 0.69)。

章节详解

1. 引言

  • 背景:LLM在行为研究中替代人类被试的应用趋势兴起,但存在“是否能捕捉人类概念多样性”“对齐是否影响模型内部多样性”两大核心争议。
  • 问题提出:现有群体水平多样性测量存在缺陷,无法区分群体同质性与异质性;对齐技术可能导致模型输出趋同,但缺乏概念多样性层面的实证验证。
  • 研究目标:验证LLM的人类级概念多样性捕捉能力,分析对齐技术对概念多样性的影响。

2. 背景

  • 相关研究:LLM已被应用于民意调查、用户研究等多个行为研究场景,但现有研究指出其存在回答多样性不足、边缘化群体表征扁平化等问题。
  • 现有局限:此前多样性评估多聚焦人口统计学分组或项目级模式,缺乏对个体与群体变异性关系的细粒度测量,且未明确对齐技术对概念多样性的影响机制。

3. 方法

3.1 词-颜色关联任务

  • 任务设计:让模型为199个目标词(如“chalk”“obligation”)生成2个HEX颜色码,模拟人类两次颜色选择的实验设计。
  • 数据处理:通过正则表达式提取有效HEX码,排除无效响应后计算ΔE及异质性指标dw

3.2 概念相似性判断任务

  • 任务设计:针对“动物”和“政治家”两类概念,让模型完成成对相似性判断(如“雀类与鲸鱼、企鹅哪个更相似”),覆盖所有概念组合。
  • 数据处理:将模型响应编码为二元向量,通过CRP模型聚类,估计多概念表征概率。

3.3 群体模拟与模型选择

  • 群体规模:词-颜色关联任务150个模拟被试,概念相似性判断任务1800个模拟被试。
  • 模型细节:所有模型均来自HuggingFace,控制参数规模为7B以排除架构差异干扰,明确区分非对齐(如Mistral-Instruct)与对齐(如Zephyr-Mistral)变体的训练方式。

4. 结果

4.1 词-颜色关联领域

  • 多样性差距:所有模型的dw值均远低于人类基线(15.82),未达到人类级概念多样性。
  • 对齐的影响:对齐模型的异质性指标显著低于非对齐模型(回归系数b = −0.495p < 0.001),仅Gemma家族在温度操纵下例外。
  • 操纵效果:提示词操纵提升多样性的效果(b = 0.294)显著优于温度操纵(b = 0.093)。
  • 定性发现:模型对具象词(如“tomato”)的颜色关联与人类一致,但对抽象词(如“optimism”)的响应多样性不足,且依赖文本共现语义(如“jealousy-绿色”)。

4.2 概念相似性判断领域

  • 多样性差距:多数模型的多概念表征概率P低于人类基线,仅少数非对齐模型接近。
  • 对齐的影响:对齐模型的P值显著更低(b = −0.079p < 0.001),且未能捕捉人类“政治家概念多样性高于动物”的特征。
  • 操纵效果:提示词操纵对多样性有微弱正向影响(b = 0.019),温度操纵则有微弱负向影响(b = −0.018),整体效果有限。
  • 可靠性分析:模型的被试间一致性与人类接近(约50%),但这种变异性并非源于有意义的概念表征差异。

5. 讨论

  • 核心发现解读:温度和提示词操纵仅能增加表面随机性,无法模拟人类概念多样性的结构化差异,可能因人类个体差异与特定认知领域绑定,而现有操纵方式缺乏任务特异性。
  • 对齐的权衡:对齐技术为提升模型安全性和可用性,可能导致概念表征趋同,这一“多样性代价”需在人类中心应用中重点考量。
  • 未来方向:需探索任务特异性的结构化随机性注入方法,结合人类认知差异机制(如工作记忆)优化LLM群体模拟。

6. 结论

  • 核心结论:LLM尚未达到人类级概念多样性,对齐技术(RLHF/RLAIF)会显著降低模型的概念多样性,二者存在固有权衡。
  • 研究启示:在将LLM用于行为研究或人类中心应用前,需充分评估其概念多样性缺陷,避免因“思维同质化”导致研究偏差或应用局限。

局限性

  1. 模型规模:仅测试7B参数模型,未验证更大规模模型是否存在不同模式。
  2. 语言与文化:仅基于英语模型和美国人群数据,缺乏跨语言、跨文化的概念多样性评估。
  3. 测试领域:局限于词-颜色关联和简单概念相似性判断,未覆盖更复杂的概念领域(如道德判断、价值观)。