Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs

MisinfoEval: Generative AI in the Era of “Alternative Facts”

论文概览

本文假设基于大型语言模型(LLM)的干预措施(含个性化设计)可突破现有虚假信息干预的用户偏见与可扩展性瓶颈,通过设计MisinfoEval框架,开展两阶段模拟社交媒体环境实验(A/B测试非个性化与个性化干预),发现LLM干预能将用户虚假信息识别准确率提升最高41.72%,个性化干预更受用户认可且准确率达85.89%(显著高于非个性化的76.65%),医疗领域GPT-4干预准确率达97.6%,最终结论为LLM是规模化应对虚假信息的有效工具,但需解决模型准确性、幻觉及 demographic 偏见问题。

核心问题

现有社交媒体虚假信息干预措施面临两大核心瓶颈:一是用户存在党派偏见,对对立立场新闻更苛刻、对支持立场新闻更轻信;二是可扩展性不足(专业事实核查资源有限,众包核查易遭滥用),而LLM的快速信息处理与认知建模能力为解决上述问题提供了可能,本文进一步探索如何通过个性化LLM干预提升应对效果。

主要贡献

  1. 提出MisinfoEval框架,为生成、个性化及全面评估LLM-based虚假信息干预提供标准化工具。
  2. 通过两阶段大规模实验(4950名合格参与者)验证:非个性化LLM干预显著提升用户识别准确率,个性化干预(基于人口统计学、政治意识形态等属性)进一步提升用户认可度与准确率。
  3. 发现GPT-4生成的解释在医疗虚假信息领域表现突出(准确率97.6%),且与人类事实核查员的可信度无显著差异。
  4. 公开模拟社交媒体平台与4000+参与者的实验数据,为后续虚假信息干预研究提供可复现的基础。

研究方法

  1. 实验环境:构建模拟Facebook/X的社交媒体界面,包含新闻标题、图片、来源及“了解更多”干预按钮,参与者需完成互动(点赞/分享/标记)与反馈任务。
  2. 干预类型:5种非个性化干预(标签仅、AI方法学解释、人类方法学解释、反应框架解释、GPT-4零样本解释)+1种个性化GPT-4解释(基于性别、种族、年龄、教育水平、政治倾向定制)。
  3. 参与者招募:通过Amazon Mechanical Turk招募9262名美国参与者,经注意力测试与行为筛选后,4950名合格参与者参与实验。
  4. 评估指标:核心指标为用户虚假信息识别准确率、虚假信息分享/标记率、干预有用性评分(4点李克特量表);辅助分析含统计检验(t检验、Mann-Whitney U检验)、线性回归及LLM解释的手动定性分析。

章节详解

1. 摘要

简述虚假信息对民主进程、经济及公共健康的危害,指出现有干预的可扩展性与用户偏见问题,提出MisinfoEval框架及两阶段实验设计,核心发现为LLM干预(尤其是个性化干预)能显著提升用户识别准确率(最高41.72%),且受用户青睐。

2. 引言

  • 背景:社交媒体虚假信息传播迅猛(如2006-2017年Facebook虚假新闻扩散速度超真实新闻),“过滤气泡”算法加剧意识形态回音室效应。
  • 现有干预局限:标签式干预依赖用户理性假设(现实中存在党派偏见),专业事实核查资源有限,众包核查易遭滥用(如X的Community Notes存在党派偏见)。
  • 研究目标:开发基于LLM的自动化、个性化虚假信息干预工具,通过两阶段实验验证效果(Phase I:非个性化干预;Phase II:个性化干预)。

3. 相关工作

  • 现有研究:AI归因的事实核查标签有效,但效果常弱于人类标签;解释标签生成机制可提升干预效果;GPT类模型的真实性解释能降低用户对虚假信息的接受度,但存在恶意滥用风险。
  • 本文创新点:不同于现有研究聚焦“真实性预测”,本文重点探索基于用户属性的“个性化论证生成”,首次系统评估LLM个性化干预对虚假信息识别的影响。

4. 社会媒体平台实验与研究设计

4.1 MisinfoEval环境

  • 数据来源:选取460条新闻标题(188条真实、185条虚假),医疗领域子集含54条新闻(平衡真实与虚假)。
  • 界面设计:参与者可对新闻进行点赞/分享/标记,点击“了解更多”可查看干预内容(标签+解释),并完成真实性判断与有用性评分。
  • 干预类型细节:个性化GPT-4解释通过提示词融入用户属性(如“面向保守派、未受教育、18-29岁男性”),且不提及AI身份与用户类型。

4.2 参与者

  • 招募与筛选:要求参与者HIT通过率≥98%,通过注意力测试(如回答需互动的最少帖子数),排除刷屏者与标签固化者。
  • 人口统计学特征:52%为25-34岁,64%为男性,74%为白人,29%为右翼倾向,主要新闻来源包括X、《纽约时报》、CNN等。

5. 实验结果

5.1 非个性化干预效果(Phase I)

  • 核心发现:所有干预均显著提升用户准确率(标签仅提升24.24%,GPT-4提升41.72%),解释类干预效果优于标签仅干预;GPT-4干预的虚假信息标记率最高(38.17%,干预前仅3.1%)。
  • 医疗领域表现:GPT-4干预准确率达97.65%(95% CI: [96.03,99.27]),AI与人类方法学解释的准确率无显著差异(91.98% vs 92.33%)。

5.2 个性化干预效果(Phase II)

  • 有用性评分:个性化且对齐用户属性(对齐分数≥0.4)的干预有用性评分(2.90)显著高于非个性化干预(2.71,p<.05)。
  • 准确率:个性化干预用户的平均准确率(85.89%)显著高于非个性化干预(76.65%,p=0.008),线性回归显示对齐分数与准确率正相关。

6. LLM解释分析

6.1 事实准确性瓶颈

  • 手动分析发现,24.13%的GPT-4解释存在错误推理,模型严重依赖记忆的事件知识(79.09%),存在过时信息导致的幻觉风险。

6.2 个性化的语言效应

  • 解释长度跨人群差异小,但可读性与正式度受人口统计学属性影响显著:面向“受过教育”用户的解释可读性降低、正式度提升18.46%;面向“黑人”用户的解释正式度最低,揭示模型潜在的 demographic 偏见。

7. 结论

总结LLM-based干预(尤其是个性化设计)在应对虚假信息中的潜力,强调其成功依赖模型标签预测准确性,需结合检索增强生成(RAG)等技术解决幻觉问题;指出LLM个性化是“双刃剑”,需政策制定者、研究者与工程师协作防范恶意滥用风险。

8. 伦理声明与局限性

  • 局限性:未考虑社交媒体的网络互动效应(如社交线索对虚假信息传播的影响),参与者群体的多样性仍有提升空间。
  • 伦理风险:LLM可被用于生成更具说服力的定向虚假信息,个性化干预可能强化刻板印象,需后续研究聚焦风险防控。