Breaking Bias, Building Bridges: Evaluation and Mitigation of Social Biases in LLMs via Contact Hypothesis

Breaking Bias, Building Bridges: Evaluation and Mitigation of Social Biases in LLMs via Contact Hypothesis

论文概览

  • 核心问题:探究大型语言模型(LLMs)在13个社会偏见维度上的偏见表现,验证LLM响应是否符合社会心理学中的“接触假说”,并基于该假说开发有效的去偏方法。
  • 主要贡献:1. 评估了LLaMA 2、Tulu、NousHermes三款模型在13类偏见维度上的表现;2. 证实LLM响应与接触假说一致(正面接触降低偏见、负面接触增强偏见);3. 构建含108,000个提示集的数据集(覆盖5个场景、6个核心原则);4. 提出社会接触去偏(SCD)方法,通过指令微调使LLaMA 2偏见降低达40%,且不影响下游任务性能和生成质量。
  • 研究方法:设计含“无接触/正面接触/负面接触”的三类提示,结合确定性、可能性、频率三种尺度,在5个社会场景中探测13类偏见;基于接触假说构建去偏数据集,通过8种微调设置(跨提示尺度、跨数据集等泛化性验证)进行指令微调,采用ROUGE、BERTScore及人工评估验证效果。

各章节详解

1. 引言

  • 背景:LLMs易继承训练数据中的社会偏见,可能强化刻板印象,但现有偏见评估方法缺乏整体性,且依赖群体间比较而非个体群体分析。
  • 理论基础:接触假说(Allport et al., 1954)主张特定条件下跨群体接触可减少偏见,首次将其应用于LLM偏见研究。
  • 研究问题(RQ):RQ1-LLM对接触探测的响应是否存在社会偏见?RQ2-响应是否符合接触假说?RQ3-能否基于接触假说减少LLM偏见?

2. 数据与方法

2.1 提示集构建

  • 核心组件:3种提示尺度(确定性/可能性/频率)、3种提示模板(无接触/正面接触/负面接触)、2类行动动词(积极如“collaborate”/消极如“exclude”)、5个社会场景(教育/职场/社区/体育/医疗)、13类偏见维度(含近600个描述符,源自HOLISTICBIAS)、6个接触假说核心原则(平等群体地位、共同目标等)。
  • 数据集规模:共108,000个提示集,每类尺度对应36,000个(6原则×5场景×2行动×600描述符×3接触类型)。

2.2 偏见评估标准

  • 定义:跨群体互动中,“同意参与”(如“是”“可能”)视为无偏响应,“拒绝参与”视为有偏响应(基于接触假说的心理学依据)。
  • 指标:计算模型对所有提示的有偏响应百分比。

3. 偏见评估结果

  • RQ1(是否存在偏见):LLaMA 2和NousHermes在可能性/频率提示中偏见率27.47%-50%,Tulu在确定性提示中偏见率仅9.97%但其他尺度达50%;体育场景偏见最严重(宗教、体型、年龄维度突出),政治意识形态维度在所有场景中偏见均较高。
  • RQ2(是否符合接触假说):所有模型中,正面接触提示的有偏响应率低于无接触提示,负面接触提示的有偏响应率高于无接触提示,与接触假说一致。

4. 社会接触去偏(SCD)

4.1 去偏方法

  • 核心思路:通过指令微调,让模型学习接触假说相关场景的无偏响应,即使在信息不足时也避免刻板印象。
  • 8种微调设置:涵盖跨提示尺度、跨数据集、跨场景、跨原则、跨偏见维度等泛化性验证。

4.2 去偏结果

  • 偏见 reduction:所有设置下偏见均显著降低,LLaMA 2在1个epoch微调后偏见最高减少40%,社区/医疗场景甚至接近零偏见。
  • 泛化性:在未训练的提示类型、场景、原则、偏见维度及外部BBQ数据集上均表现出偏见降低。
  • 性能保留:下游WikiMovies任务的ROUGE和BERTScore基本不变,生成文本的流畅性无明显下降,相关性反而提升(50/100 vs 31/100)。

5. 结论与局限性

  • 结论:LLMs存在显著社会偏见且响应符合接触假说;SCD方法通过接触场景指令微调,可有效且泛化性地减少偏见,且不损害模型性能。
  • 局限性:接触假说原则存在关联性难以单独完全模拟;提示尺度和响应格式(二元响应)有限;仅聚焦英语模型,未涵盖非英语场景。

一句话总结

本文假设社会心理学中的接触假说可用于LLM社会偏见的评估与缓解,通过构建含108,000个提示集的数据集并设计8种泛化性验证场景,提出SCD指令微来去偏方法,实验证明该方法能使LLaMA 2的社会偏见降低达40%且不影响下游任务和生成质量,最终证实接触假说对LLM去偏的有效性和泛化性。