Are Large Language Models (LLMs) Good Social Predictors?

Are Large Language Models (LLMs) Good Social Predictors?

论文概览

核心问题

此前LLM在社会预测(如总统投票预测)中展现的优异性能,是否源于输入中存在与预测目标直接相关的“捷径特征”,而非LLM真正具备通用社会预测能力?

主要贡献

  1. 揭示此前LLM社会预测的高性能依赖捷径特征,移除捷径后性能大幅下降;
  2. 提出新的社会预测任务Soc-PRF Prediction(Social Profile Prediction),模拟真实社会研究场景;
  3. 构建基于盖洛普世界调查(Gallup World Poll)的高质量数据集(4941个美国个体样本,16个社会特征),无强相关捷径特征;
  4. 设计三种评估场景,系统验证LLM在无捷径的通用社会预测中表现接近随机,并分析原因及改进方向。

研究方法

  1. 复现实验与消融研究:基于ANES数据集复现LLM投票预测实验,对比含/不含捷径特征的性能差异;
  2. 数据集构建:筛选盖洛普调查2016-2020年美国数据,清洗后得到16个特征(7个低可变性特征、9个高可变性特征);
  3. 任务设计:按特征可变性设计low2high、high2low、high2high三种零-shot评估场景;
  4. 指标与模型:采用$Cramer’s V$(衡量特征相关性)、准确率、Cohen’s Kappa$κ$、AUC(处理不平衡数据)作为评估指标,测试GPT-3.5、GPT-4、Gemini Pro等闭源模型及Llama-7B、Mistral-7B等开源模型,同时以随机森林作为基线模型。

各章节详解

1. 引言(Introduction)

  • 背景:社会预测是社会科学核心方法,传统统计模型(如线性回归)和机器学习模型(如随机森林、SVM)依赖大量标注数据且预测能力有限;LLM凭借海量世界知识和推理能力,被尝试用于社会预测(如投票决策、政治态度)并报告优异性能。
  • 问题:初步研究发现,此前LLM的高性能源于输入中存在“捷径特征”(与预测目标强相关的特征),忽略了特征与标签间的真实关联。
  • 研究目标:设计无捷径的真实场景社会预测任务,系统评估LLM的实际预测能力,分析局限原因并提出改进方向。

2. 重新审视LLM投票预测(Revisit Voting Prediction with LLMs)

  • 实验基础:复现Argyle等人(2022)的投票预测研究,采用ANES数据集,输入含10个特征(含意识形态认同、政党认同两个捷径特征)。
  • 捷径验证:计算捷径特征与投票决策的$Cramer’s V$值(2016年数据中分别为0.86和0.76),证实强相关性。
  • 实验设计:对比两种设置(Full:含所有特征;w/o shortcut:移除捷径特征)下,GPT-3.5和随机森林的性能(准确率、Cohen’s Kappa$κ$)。
  • 结果:Full设置中,GPT-3.5准确率90.82%、$κ=0.83$,随机森林准确率90.29%、$κ=0.78$;w/o shortcut设置中,GPT-3.5准确率降至61.60%、$κ=0.43$,随机森林降至69.22%、$κ=0.23$,性能显著下滑。

3. 社会档案预测(Social Profile Prediction)

3.1 任务与数据集(Task and Dataset)

  • 任务定义:Soc-PRF Prediction,基于个体部分社会特征预测其他缺失特征,确保输入无捷径。
  • 数据集:源于盖洛普世界调查(2016-2020年美国数据),含4941个样本、16个特征(7个低可变性:年龄、性别、婚姻状况等;9个高可变性:互联网访问、社会生活态度等)。

3.2 任务设置(Task Settings)

  • low2high:输入低可变性特征,预测高可变性特征(模拟传统调查数据场景);
  • high2low:输入高可变性特征,预测低可变性特征(模拟在线数据场景);
  • high2high:输入部分高可变性特征(排除同主题特征),预测其他高可变性特征(模拟部分态度已知、其余未知场景);
  • 评估指标:因数据分布不平衡,采用AUC作为主要指标。

3.3 特征分析(Feature Analysis)

  • 相关性验证:所有特征对的$Cramer’s V$值多数小于0.5,最大为0.58(同主题高可变性特征),证实无强捷径特征;
  • 基线验证:随机森林在low2high设置中AUC显著高于随机猜测(如IA特征AUC=95.07 vs 随机猜测48.34),说明特征具备预测价值。

3.4 LLM作为预测器(LLMs as the Predictor)

  • 结果:所有LLM在三种设置下的性能均接近随机猜测(如low2high设置中,GPT-4各特征AUC多在50左右),且不同LLM(闭源/开源)表现一致。

3.5 讨论(Discussions)

  • 群体vs个体:LLM仅掌握部分低可变性特征的群体级分布知识,无法建立个体级特征关联;高可变性特征的群体级知识也未被捕捉;
  • 融入标注数据:通过上下文学习加入2-4个演示样本,部分特征(如IA)AUC提升至82.67,但4个演示样本较2个无显著改进;
  • 丰富输入特征:相同低可变性特征组合的个体,高可变性特征响应差异大,输入特征不足限制LLM鉴别能力。

4. 相关工作(Related Work)

  • 传统机器学习在社会预测:替代经典统计模型,应用于犯罪行为、在线帖子浏览量、公众情绪等预测,但依赖大量标注数据或预测能力有限;
  • LLM在社会特征预测:用于模拟调查样本、预测政治意识形态、有毒言论结果等,但未关注捷径特征问题,且缺乏真实场景无捷径评估。

5. 结论(Conclusion)

  • 核心发现:LLM在无捷径的通用社会预测中表现接近随机,此前高性能源于捷径特征;
  • 未来方向:探索有效融入监督信号、丰富输入特征、通过微调适配社会预测任务的方法。

6. 局限性(Limitations)

  • 未探究信息特征选择及任务性能上限;
  • 未验证融入标注数据、丰富输入特征的具体有效性实验;
  • 未定制LLM和提示词以适配社会预测任务。

一句话总结

论文假设无捷径特征时LLM难以完成通用社会预测,通过复现投票预测实验、构建Soc-PRF任务及三种真实场景、采用$Cramer’s V$、AUC等指标测试多种LLM与传统模型,发现无捷径时LLM预测性能接近随机,证实其当前无法胜任通用社会预测,需通过优化监督信号融入、丰富输入特征等方式改进。