Finetuning LLMs for Human Behavior Prediction in Social Science Experiments

Finetuning LLMs for Human Behavior Prediction in Social Science Experiments

论文概览

本文假设通过在社会科学实验的个体级响应数据上微调大语言模型(LLMs),可提升其对人类行为预测的准确性与泛化能力;方法上构建了包含210个实验、290万条响应的SOCSCI210数据集,采用监督微调(SFT)、推理轨迹增强微调、直接偏好优化(DPO)等方法微调LLaMA3-8B和Qwen2.5-14B模型;实验结果显示,最优模型SOCRATES-QWEN-14B在未见过的研究中分布对齐度较基准模型提升26%,超GPT-4o 13%,对未见过的实验条件泛化提升71%,并减少10.6%的人口统计偏见;结论为基于领域特定数据的微调可赋能社会科学实验假设筛选,提供更准确的模拟工具。

核心问题

现有LLM用于社会科学实验模拟时存在三大关键缺陷:一是扭曲观点分布、高估实验效应量(2-10倍),且10%-32%的情况下错误预测效应方向;二是对未见过的实验、条件、参与者的泛化能力不足;三是存在人口统计偏见,扁平化不同群体的差异,限制了其在社会科学研究中的实用价值。本文旨在解决这些问题,构建通用、准确、低偏的人类行为预测模型。

主要贡献

  1. 构建了大规模标准化数据集SOCSCI210,涵盖210个跨学科社会科学实验、400,491名参与者的290万条个体级响应,包含丰富人口统计信息,样本量是此前相关数据集的5倍。
  2. 提出SOCRATES系列微调模型(SOCRATES-LLAMA-8B和SOCRATES-QWEN-14B),其预测结果与人类响应分布的对齐度较GPT-4o分别提升12.1%和13.2%,较基准模型提升26%以上。
  3. 验证了模型在多维度的强泛化能力:仅用10%的实验数据微调即可减少13%的预测误差,对未见过的实验条件泛化提升71%、未见过的结果泛化提升49%,同时将人口统计偏见减少10.6%以上。

研究方法

数据集构建

  • 数据来源:取自美国国家科学基金会(NSF)的TESS项目,包含经同行评审、覆盖社会学、心理学、经济学等多领域的高统计效力实验。
  • 构建流程:通过LLM智能体自动解析实验文档、数据文件和代码本,将数据标准化为「人口统计特征(Persona)-实验条件(Condition)-结果问题(Outcome)-响应(Response)」的统一格式,最终成功重构210个实验。

微调方法

  1. 监督微调(SFT):最小化目标响应的负对数似然损失,损失函数为$ {SFT}(F’)=-{(q, r) } q r $为真实响应。
  2. 推理轨迹增强微调(SFT+Reasoning):利用GPT-4o-mini生成符合社会科学理论的推理轨迹,将「推理+响应」作为目标输出进行微调。
  3. 直接偏好优化(DPO):构建人口统计、实验条件或结果问题差异化的响应对比对,通过损失函数$ {DPO}(F’ ; F)=-{(q, r_{pos }, r_{neg }) } $优化模型,增强响应区分能力。

评估指标

  1. 个体响应准确率:针对有序或二元响应,采用标准化准确率计算,公式为$ Acc. =1- {(P, c, o)} r{max} r_{min} $为响应尺度的最大值和最小值。
  2. 分布对齐度:使用Wasserstein距离衡量模型预测分布与人类响应分布的相似度,距离越小对齐度越高。
  3. 人口统计公平性:计算人口统计均等差异(不同群体分布对齐度的绝对差距),衡量模型偏见程度。

各章节详解

1. 引言

  • 背景:LLM在社会科学实验模拟中具有巨大潜力,可帮助研究者在开展高成本实地实验前筛选假设,但现有模型存在分布扭曲、效应量高估、偏见等问题。
  • 研究动机:扩展此前微调工作的领域范围,构建通用型人类行为预测模型,解决现有LLM的核心缺陷。
  • 核心目标:通过大规模跨学科数据集微调,提升LLM在未见过的实验、条件、参与者上的泛化能力,同时减少偏见。

2. 相关工作

  • 人类响应微调数据集:现有数据集或局限于单一领域(如认知科学、公共舆论),或缺乏个体级响应和丰富人口统计信息,SOCSCI210填补了跨学科、大规模个体级数据集的空白。
  • LLM微调方法:此前工作多采用单一SFT或强化学习微调,本文系统对比了SFT、推理增强微调、DPO三种方法的效果,明确了不同方法的适用场景。

3. 任务制定

  • 任务描述:模型输入为个体人口统计特征$ P c o r $,支持有序(如1-7分制)和二元(是/否)响应类型。
  • 数据集形式:每个样本为四元组$ (P, c, o, r) $,实验设计包括被试间(参与者随机分配至单一条件)和被试内(参与者暴露于多个条件)两种类型。
  • 评估体系:同时关注个体响应准确率(微观层面)和分布对齐度(宏观层面),其中分布对齐度对社会科学实验的假设验证更为关键。

4. 微调方法

  • 三种微调策略的设计逻辑:SFT聚焦基础响应预测,推理增强微调引入社会科学理论依据,DPO强化响应的差异化区分能力。
  • 关键实现细节:SFT采用余弦学习率调度器,DPO中$ $参数用于调节偏好权重,推理轨迹由GPT-4o-mini生成以平衡成本与质量。

5. 实验

  • 实验设置:基准模型包括GPT-4o和开源LLaMA3-8B、Qwen2.5-14B,对比了直接提示、推理提示、少样本提示等基线方法,通过bootstrapping计算性能上界(Empirical Best)和下界(Uniform Guess)。
  • 核心结果:
    1. 未见过的研究泛化:SOCRATES-QWEN-14B分布对齐度达0.151,接近实证上界0.125,超GPT-4o 13.2%;
    2. 未见过的条件/结果泛化:微调后对未见过条件的分布对齐度提升71%,超过实证上界,对未见过结果提升49%;
    3. 未见过的参与者泛化:仅用10%的参与者数据微调,即可使个体准确率提升至75%,误差减少13%;
    4. 偏见减少:微调后各人口统计群体的分布对齐度平均提升28.5%,人口统计均等差异减少10.6%。
  • 关键发现:DPO在个体准确率上表现最优,SFT在分布对齐度上更具优势;模型性能在10%的训练数据量时趋于饱和。

6. 结论与局限

  • 结论:基于SOCSCI210的微调可显著提升LLM对社会科学实验中人类行为的预测能力,为研究者提供低成本、高准确率的假设筛选工具。
  • 局限:模型基于美国人口样本训练,对非美国群体和开放式问题的泛化性未验证;采用中小规模模型,更大参数模型可能进一步提升性能;推理轨迹质量依赖GPT-4o-mini,更强推理模型可能带来增益。