Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations
Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations
论文概览
本文假设通过针对性微调可提升大型语言模型(LLMs)模拟全球不同群体调查响应分布的准确性,提出基于多选题首词概率的微调方法,以KL散度损失最小化预测与实际分布的差异,实验表明该方法在已见/未见国家、问题及全新调查中显著优于零样本方法,但模型在未见问题上表现仍有不足且预测多样性低于人类数据,最终结论为LLM专业化微调对调查响应分布模拟有效,但当前阶段需谨慎使用。
核心问题
大规模社会调查是社会科学研究与政策制定的关键工具,但存在成本高、耗时长的弊端;现有LLMs虽具备模拟人类行为的潜力,却存在错误生成、刻板印象等问题,零样本场景下难以准确模拟不同国家/群体的调查响应分布,无法满足社会科学研究对群体层面响应分布模拟的需求。
主要贡献
- 提出“群体层面调查响应分布预测”这一模拟任务,公开三个适配该任务的数据集(含英文、中文版本),为相关研究提供基础。
- 设计基于多选题首词概率的微调方法,通过KL散度损失对齐模型预测与人类响应分布,经实验验证该方法在模拟任务中性能最优,凸显专业化微调的价值。
- 揭示最优模型仍存在系统性偏差(如未见问题表现不佳、预测多样性不足),警示当前无论是否微调,LLMs均不宜直接用于调查响应分布模拟。
研究方法
数据集构建
- 主数据集:采用2017-2022年世界价值观调查(WVS),涵盖65个国家、259个问题,按主题(社会价值观、宗教伦理、政治文化等)和国家属性(地域、GDP水平)拆分训练/验证/测试集。
- 跨语言数据集:基于WVS官方版本构建英文、中文数据集(缺失中文问题用GLM-4翻译补充)。
- 未见调查数据集:采用皮尤全球态度调查(Pew),验证模型对全新调查的泛化能力。
微调框架
- 任务定义:给定调查问题、选项及目标国家,模型需预测各选项的响应概率分布P(O|Q),而非单一答案。
- 首词概率对齐:模型输出各选项首词的logits,经softmax转换为概率分布:$P_{LLM}\left(o_{i} | Q\right)=\frac{e^{z_{i}}}{\sum_{j=1}^{n} e^{z_{j}}}$。
- 损失函数:采用KL散度最小化模型预测与人类响应分布的差异:$Loss_{KL}=\sum_{i=1}^{n} P_{human }\left(o_{i} | Q\right) log \left(\frac{P_{human }\left(o_{i} | Q\right)}{P_{LLM}\left(o_{i} | Q\right)}\right)$。
- 优化策略:使用低秩适配(LoRA)实现参数高效微调,提升训练效率。
实验设计
- 模型选择:涵盖三个家族的7个LLMs(Vicuna1.5-7B/13B、Llama3-8B-Base/Instruct、Deepseek-DistilledQwen-7B/14B/32B)。
- 基线设置:零样本提示(ZS)、随机替换国家的控制组([ctrl])、K近邻(KNN)等。
- 评估指标:1-詹森-香农散度(1-JSD,值越高越相似)、地球移动距离(EMD,值越低越相似)、选项预测准确率。
各章节详解
1. 引言
介绍大规模调查的重要性与局限性,以及LLMs在模拟人类行为中的潜力与现有缺陷(错误、刻板印象)。明确本文核心目标:通过专业化微调提升LLMs模拟群体层面调查响应分布的能力,而非依赖零样本提示。提出基于首词概率的微调框架,区分于传统单一答案预测,聚焦分布模拟,并概述实验设计与核心结论。
2. 相关工作
- LLM模拟研究:现有研究多通过提示策略提升LLM模拟人类调查响应的准确性,但存在偏差与概念挑战,且多聚焦单一答案预测而非分布模拟。
- 分布模拟与校准:传统校准研究侧重多数类准确率,而本文任务需对齐完整人类判断分布,属于多选题场景下的“人类校准”。
- 区别与创新:本文首次将LLMs专业化用于群体层面调查响应分布模拟,而非评估LLM自身价值观或预测单一答案。
3. 文化调查模拟数据集
- 数据来源:筛选WVS中受访者超1000人的65个国家,剔除无效选项(如“不适用”),保留原始问题与选项。
- 提示设置:遵循GlobalOpinionQA模板,输入包含指令、问题、选项及格式限制(首词需为选项标识),目标为选项响应分布。
- 数据集拆分:按主题将问题分为Q₁(通用问题)、Q₂(宗教伦理)、Q₃(政治文化);按地域/GDP将国家分为C₁(通用国家)、C₂(非洲国家)、C₃(中等GDP国家),构建多维度测试集(未见问题、未见国家)。
- 未见调查数据集:选取Pew调查的部分国家数据,确保与WVS格式一致但问题不同,验证泛化能力。
4. 方法论
- 概率分布模拟:定义任务核心为预测群体层面选项分布P(O|Q),而非单一答案,评估聚焦分布对齐而非多数类准确率。
- 首词概率对齐:利用LLMs输出首词的概率分布映射选项响应分布,通过格式限制确保首词与选项一一对应。
- 微调优化:结合KL散度损失与LoRA,在保证微调效果的同时降低计算成本,适配大模型训练需求。
5. 实验设置
- 模型细节:涵盖三个主流模型家族,包含不同参数规模(7B-32B)与模型类型(Base/Instruct),其中Vicuna1.5用于验证微调对弱模型的提升效果。
- 基线与控制组:零样本提示(ZS)为主要基线,控制组([ctrl])通过随机替换国家,验证模型对国家语境的敏感性。
- 评估指标:1-JSD衡量分布相似度,EMD量化分布转换成本,选项准确率(选取预测概率最高的选项与人类多数选择对比)辅助验证。
6. 结果
6.1 RQ1:泛化性能
- 微调vs零样本:所有模型中,微调(FT)的1-JSD显著高于零样本(ZS),EMD显著更低(如Llama3-8B-Instruct平均1-JSD提升34.3%),证明微调能让模型内化群体响应模式。
- 未见问题vs未见国家:模型对未见国家(C₂、C₃)的泛化能力优于未见问题(Q₃),说明模型更难捕捉未训练主题的响应分布规律。
- 模型间对比:微调大幅缩小不同模型的零样本性能差距,弱模型(如Vicuna1.5)经微调后可达到与强模型相近的效果;Instruct模型微调后表现优于Base模型。
- 分布对齐与准确率:微调不仅提升分布模拟准确性,还显著提高选项预测准确率,尤其在未见国家上提升明显,证明分布对齐与单一答案准确性存在正相关。
6.2 RQ2:变异敏感性
- 语境敏感性:FT[ctrl]与FT的性能差距(平均1-JSD下降16.7%)远大于ZS[ctrl]与ZS(3.7%),说明微调后模型对国家语境更敏感,能捕捉文化差异。
- 预测多样性:所有模型(无论是否微调)的国家间预测多样性均低于人类调查数据,Base模型微调后多样性略有提升,Instruct模型微调后多样性反而下降,但整体仍未达人类水平。
- 未见国家表现:非洲国家(C₂)在未见问题上准确率显著下降,Instruct模型微调后仍保持相对稳健性,优于Base模型。
6.3 稳健性分析
- 语言影响:中文数据集上模型性能略低于英文,但差异不显著,说明当前LLMs在该任务中对语言差异敏感性较低。
- 跨调查泛化:在Pew调查中,微调模型的1-JSD与准确率均显著高于零样本,证明方法具备跨调查泛化能力。
6.4 消融实验
- 损失函数:KL散度损失效果最优, Wasserstein损失、JS损失、交叉熵损失虽优于零样本,但性能均不及KL损失。
- 选项顺序偏差:打乱选项顺序后模型性能略有下降,但影响远小于微调或模型选择,说明选项顺序并非主要干扰因素。
7. 结论与局限性
- 结论:基于首词概率的微调方法能有效提升LLMs模拟群体层面调查响应分布的能力,在已见/未见国家、问题及跨调查场景中均表现优异,但模型仍存在系统性缺陷(未见问题表现差、多样性不足),当前不宜直接用于实际调查模拟。
- 局限性:模型仅适用于特定调查分布预测任务,通用性有限;数据集覆盖语言(仅英/中)与国家类型有限;未测试32B以上参数模型,可能遗漏更大模型的性能潜力。
- 伦理声明:数据集与模型均来自开源授权资源,提醒用户注意LLM部署的伦理风险,避免误用模拟结果。