Finetuning LLMs for Human Behavior Prediction in Social Science Experiments
Finetuning LLMs for Human Behavior Prediction in Social Science Experiments
论文概览
本文假设通过在社会科学实验的个体级响应数据上微调大语言模型(LLMs),可提升其对人类行为预测的准确性与泛化能力;方法上构建了包含210个实验、290万条响应的SOCSCI210数据集,采用监督微调(SFT)、推理轨迹增强微调、直接偏好优化(DPO)等方法微调LLaMA3-8B和Qwen2.5-14B模型;实验结果显示,最优模型SOCRATES-QWEN-14B在未见过的研究中分布对齐度较基准模型提升26%,超GPT-4o 13%,对未见过的实验条件泛化提升71%,并减少10.6%的人口统计偏见;结论为基于领域特定数据的微调可赋能社会科学实验假设筛选,提供更准确的模拟工具。
核心问题
现有LLM用于社会科学实验模拟时存在三大关键缺陷:一是扭曲观点分布、高估实验效应量(2-10倍),且10%-32%的情况下错误预测效应方向;二是对未见过的实验、条件、参与者的泛化能力不足;三是存在人口统计偏见,扁平化不同群体的差异,限制了其在社会科学研究中的实用价值。本文旨在解决这些问题,构建通用、准确、低偏的人类行为预测模型。
主要贡献
- 构建了大规模标准化数据集SOCSCI210,涵盖210个跨学科社会科学实验、400,491名参与者的290万条个体级响应,包含丰富人口统计信息,样本量是此前相关数据集的5倍。
- 提出SOCRATES系列微调模型(SOCRATES-LLAMA-8B和SOCRATES-QWEN-14B),其预测结果与人类响应分布的对齐度较GPT-4o分别提升12.1%和13.2%,较基准模型提升26%以上。
- 验证了模型在多维度的强泛化能力:仅用10%的实验数据微调即可减少13%的预测误差,对未见过的实验条件泛化提升71%、未见过的结果泛化提升49%,同时将人口统计偏见减少10.6%以上。
研究方法
数据集构建
- 数据来源:取自美国国家科学基金会(NSF)的TESS项目,包含经同行评审、覆盖社会学、心理学、经济学等多领域的高统计效力实验。
- 构建流程:通过LLM智能体自动解析实验文档、数据文件和代码本,将数据标准化为「人口统计特征(Persona)-实验条件(Condition)-结果问题(Outcome)-响应(Response)」的统一格式,最终成功重构210个实验。
微调方法
- 监督微调(SFT):最小化目标响应的负对数似然损失,损失函数为$ {SFT}(F’)=-{(q, r) },其中 q 为包含人口统计、条件和问题的提示词, r $为真实响应。
- 推理轨迹增强微调(SFT+Reasoning):利用GPT-4o-mini生成符合社会科学理论的推理轨迹,将「推理+响应」作为目标输出进行微调。
- 直接偏好优化(DPO):构建人口统计、实验条件或结果问题差异化的响应对比对,通过损失函数$ {DPO}(F’ ; F)=-{(q, r_{pos }, r_{neg }) } $优化模型,增强响应区分能力。
评估指标
- 个体响应准确率:针对有序或二元响应,采用标准化准确率计算,公式为$ Acc. =1- {(P, c, o)} ,其中 r{max} 和 r_{min} $为响应尺度的最大值和最小值。
- 分布对齐度:使用Wasserstein距离衡量模型预测分布与人类响应分布的相似度,距离越小对齐度越高。
- 人口统计公平性:计算人口统计均等差异(不同群体分布对齐度的绝对差距),衡量模型偏见程度。
各章节详解
1. 引言
- 背景:LLM在社会科学实验模拟中具有巨大潜力,可帮助研究者在开展高成本实地实验前筛选假设,但现有模型存在分布扭曲、效应量高估、偏见等问题。
- 研究动机:扩展此前微调工作的领域范围,构建通用型人类行为预测模型,解决现有LLM的核心缺陷。
- 核心目标:通过大规模跨学科数据集微调,提升LLM在未见过的实验、条件、参与者上的泛化能力,同时减少偏见。
2. 相关工作
- 人类响应微调数据集:现有数据集或局限于单一领域(如认知科学、公共舆论),或缺乏个体级响应和丰富人口统计信息,SOCSCI210填补了跨学科、大规模个体级数据集的空白。
- LLM微调方法:此前工作多采用单一SFT或强化学习微调,本文系统对比了SFT、推理增强微调、DPO三种方法的效果,明确了不同方法的适用场景。
3. 任务制定
- 任务描述:模型输入为个体人口统计特征$ P 、实验条件 c 和结果问题 o ,输出为对应响应 r $,支持有序(如1-7分制)和二元(是/否)响应类型。
- 数据集形式:每个样本为四元组$ (P, c, o, r) $,实验设计包括被试间(参与者随机分配至单一条件)和被试内(参与者暴露于多个条件)两种类型。
- 评估体系:同时关注个体响应准确率(微观层面)和分布对齐度(宏观层面),其中分布对齐度对社会科学实验的假设验证更为关键。
4. 微调方法
- 三种微调策略的设计逻辑:SFT聚焦基础响应预测,推理增强微调引入社会科学理论依据,DPO强化响应的差异化区分能力。
- 关键实现细节:SFT采用余弦学习率调度器,DPO中$ $参数用于调节偏好权重,推理轨迹由GPT-4o-mini生成以平衡成本与质量。
5. 实验
- 实验设置:基准模型包括GPT-4o和开源LLaMA3-8B、Qwen2.5-14B,对比了直接提示、推理提示、少样本提示等基线方法,通过bootstrapping计算性能上界(Empirical Best)和下界(Uniform Guess)。
- 核心结果:
- 未见过的研究泛化:SOCRATES-QWEN-14B分布对齐度达0.151,接近实证上界0.125,超GPT-4o 13.2%;
- 未见过的条件/结果泛化:微调后对未见过条件的分布对齐度提升71%,超过实证上界,对未见过结果提升49%;
- 未见过的参与者泛化:仅用10%的参与者数据微调,即可使个体准确率提升至75%,误差减少13%;
- 偏见减少:微调后各人口统计群体的分布对齐度平均提升28.5%,人口统计均等差异减少10.6%。
- 关键发现:DPO在个体准确率上表现最优,SFT在分布对齐度上更具优势;模型性能在10%的训练数据量时趋于饱和。
6. 结论与局限
- 结论:基于SOCSCI210的微调可显著提升LLM对社会科学实验中人类行为的预测能力,为研究者提供低成本、高准确率的假设筛选工具。
- 局限:模型基于美国人口样本训练,对非美国群体和开放式问题的泛化性未验证;采用中小规模模型,更大参数模型可能进一步提升性能;推理轨迹质量依赖GPT-4o-mini,更强推理模型可能带来增益。