Representation Bias in Political Sample Simulations with Large Language Models

Representation Bias in Political Sample Simulations with Large Language Models

论文概览

本文假设大型语言模型(LLMs)在模拟政治样本时存在基于国家语言、人口统计群体和政治体制类型的表征偏差,通过GPT-3.5-Turbo模型结合四个跨国数据集(ANES、GLES、Zuobiao Dataset、CFPS)模拟投票行为和舆论,以人类样本与模拟结果的一致性得分为评估指标,发现投票选择模拟准确性优于舆论,英语国家、两党制、民主政体及年长群体的模拟表现更优,最终得出需通过多样化训练语料、增强复杂场景适配性等方式缓解偏差的结论。

核心问题

识别并量化LLMs在政治样本模拟(重点是投票选择和公众舆论)中的表征偏差,具体聚焦三类偏差:英语国家与非英语国家样本的模拟性能差异、不同人口统计群体(如年龄)的模拟准确性差异、民主政体与威权政体下的模拟效果差异。

主要贡献

  1. 首次明确定义并系统验证了政治样本模拟中LLMs的三类表征偏差,填补了不同政治体制下LLM偏差研究的空白;
  2. 结合多国多类型数据集(覆盖两党制/多党制、民主/威权政体、英语/非英语国家),实证对比了投票选择与舆论模拟的准确性差异;
  3. 揭示了选举制度复杂性、训练语料构成等对模拟性能的影响机制,为LLMs在计算社会科学中的公平应用提供了具体优化方向。

研究方法

  1. 模型选择:以GPT-3.5-Turbo为核心实验模型;
  2. 数据集:采用美国全国选举研究(ANES)、德国纵向选举研究(GLES)、中国“坐标”数据集(Zuobiao Dataset)和中国家庭追踪调查(CFPS),覆盖不同语言、政治体制和议题维度;
  3. 模拟设计:通过提示词嵌入人口统计(种族、性别、年龄等)和政治属性(意识形态、党派归属等)信息,模拟投票选择(如2020年选举候选人投票)和公众舆论(如移民、政治制度等议题态度);
  4. 评估指标:采用一致性得分量化模拟准确性,公式为:$Agreement Score =\frac{\sum_{i} S_{i, Agree }}{S_{total }}$,其中$S_{i, Agree }=1$(个体i的模拟结果与实际响应一致)或$0$(不一致),$S_{total }$为群体总样本数。

各章节详解

I. 引言(INTRODUCTION)

本章开篇介绍LLMs(以GPT系列为代表)在政治学及社会科学领域的应用潜力,包括模拟人类样本、扩充数据集等,其优势在于降低成本、保护参与者和提升多样性。但同时指出LLMs存在显著挑战:对特定社会群体的偏差及有限的认知能力,已有研究发现ChatGPT存在左翼自由派倾向、嵌入性别刻板印象等问题。鉴于投票选择和公众舆论是政治学核心研究主题,且是AI模拟人类行为的关键方向,本文聚焦这两类场景,定义了三类表征偏差并展开研究,旨在为缓解AI在计算社会科学应用中的偏差提供支撑。

II. 相关工作(RELATED WORK)

本章回顾了AI和LLMs领域中表征偏差与公平性的研究现状:此前研究多集中于开发公平性评估指标、识别性别、文化、种族等维度的偏差,ChatGPT发布后,LLMs的公平性研究显著增加。同时,虽有研究探索LLMs模拟人类调查和实验样本的能力,但对其在不同政治制度下的表征偏差缺乏针对性研究。本文正是针对这一研究缺口,聚焦政治场景下LLMs模拟人类行为的偏差及潜在来源。

III. 方法(METHODS)

本章详细阐述研究设计:一是模型选择,明确以GPT-3.5-Turbo为实验核心;二是数据集用途,ANES和GLES用于对比英语与非英语国家的投票行为模拟,ANES与中国数据集用于评估不同政治体制下的舆论模拟;三是提示词设计,给出了包含国家、种族、性别、年龄等多维度属性的标准化提示词示例;四是评估方法,明确采用一致性得分作为模拟准确性的核心指标,并给出具体计算公式。

IV. 结果(RESULTS)

本章分为投票选择和公众舆论两部分呈现核心发现:

  1. 投票选择:美国样本(英语、两党制)模拟性能优于德国样本(非英语、多党制);年龄维度上,18-30岁年轻群体模拟准确性显著低于年长群体,且性能随年龄增长而提升;美国两大政党(民主党、共和党)的模拟一致性得分分别达0.958和0.899,而德国因多党制下联盟组建普遍,部分政党(如FDP、GRUENE)的模拟得分显著偏低,这与LLMs难以模拟策略性投票相关。
  2. 公众舆论:无论语言、国家或政治体制,舆论模拟准确性均显著低于投票选择,原因在于舆论受意识形态和党派归属的影响更具不确定性;美国样本模拟性能优于中国样本,中国样本的准确性接近随机猜测,这与GPT训练语料以英语为主、开发者多为西方背景相关。

V. 讨论与结论(DISCUSSIONS AND CONCLUSIONS)

本章总结了LLMs在政治样本模拟中的表征偏差:投票选择模拟优于舆论模拟;英语国家、两党制、民主政体的模拟表现更优;年长群体比年轻群体的模拟更准确。分析偏差来源包括:LLMs训练语料的语言构成(英语占比高)、不同选举制度下投票行为的预测难度(两党制更易通过意识形态和党派预测)、舆论议题的跨国差异性。最后提出研究启示:需多样化LLMs训练语料的语言和文化背景,增强其对复杂政治场景(如多党制策略性投票)的模拟能力,加强对年轻群体行为和态度的研究以提升模拟公平性。