Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language Models

Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language Models

论文概览

本文假设大型语言模型(LLMs)可通过角色扮演生成涵盖活跃与沉默用户的多样化评论,弥补真实评论的局限性;提出GenFEND框架,通过多视角评论生成、多亚群反馈理解及聚合分类实现假新闻检测增强;在Weibo21、GossipCop和LLM-mis三个数据集上的实验表明,该框架显著提升了纯内容型和基于真实评论的检测模型性能,生成评论甚至优于部分真实评论;结论证实LLM生成评论是假新闻检测的有效补充,尤其适用于早期检测场景。

核心问题

现有基于用户评论的假新闻检测方法面临三大瓶颈:1)新闻传播早期难以获取足够评论;2)真实评论仅反映活跃用户观点,沉默用户(如高学历专业群体)的反馈缺失导致观点片面;3)暴露偏差使真实评论分布不稳定,模型难以挖掘稳定模式,最终影响检测性能。

主要贡献

  1. 创新思路:首次提出利用LLMs角色扮演模拟不同类型用户,生成多样化评论替代真实评论,覆盖沉默用户的潜在反馈。
  2. 框架设计:构建GenFEND框架,通过多视角评论生成、多亚群反馈理解及跨视图聚合,实现对用户反馈的全面解析。
  3. 实证验证:在三个公开数据集上验证了框架有效性,证明生成评论在多样性和检测辅助效果上的优势,代码开源供后续研究参考。

研究方法

GenFEND框架核心分为三模块:

  1. 多视角评论生成:基于性别(2类)、年龄(5类)、教育水平(3类)组合生成30种用户画像,通过提示词引导LLM生成符合身份的自然评论。
  2. 多亚群反馈理解:采用预训练句子编码器将评论转化为嵌入向量,计算每个亚群的平均语义特征$s_{p}^{mean }=\frac{1}{\left|E^{c_{p}}\right|} \sum_{e_{i}^{c} \in E^{c p}} e_{i}^{c}$,并通过KL散度计算亚群间多样性$d_{p, q}=\frac{1}{\left|E^{c_{p}}\right|\left|E^{c_{q}}\right|} \sum_{e_{i}^{c} \in E^{c_{p}}, e_{j}^{c} \in E^{c_{q}}} kl_{-} div\left(\hat{e}{i}^{c}, \hat{e}{j}^{c}\right)$。
  3. 聚合与分类:通过视图内点积加权聚合($w^{\mathcal{V}}=Softmax\left(s_{cat }^{\mathcal{V}} \cdot e^{o^{\top}} / \sqrt{dim}\right)$)和视图间门控融合($a=Softmax(G(e^{o}\oplus d;\theta ))$)得到最终特征,结合新闻内容特征通过MLP完成二分类。

各章节详解

1 引言

首先阐述假新闻的危害(如引发市场恐慌、社会风险)及现有检测方法的局限:纯内容型方法易受伪装假新闻欺骗,基于真实评论的方法受评论数量和质量限制。随后提出核心动机——利用LLMs的角色扮演能力生成多样化评论,弥补真实评论中沉默用户反馈缺失和分布偏差问题,最后概述GenFEND框架的核心逻辑和主要贡献。

2 相关工作

  • 假新闻检测:分为纯内容型(提取文本/视觉特征)和外部资源型(利用用户、评论、传播结构等),指出基于评论的方法依赖真实评论质量的痛点。
  • 新闻相关评论生成:现有研究多聚焦于提升评论与新闻的相关性,或用于攻击检测模型,而本文首次将生成评论用于补充沉默用户反馈,辅助假新闻检测。

3 提出的框架:GenFEND

3.1 多视角评论生成

设计标准化提示词模板,包含系统提示(明确用户身份)和上下文提示(输入新闻内容),引导LLM生成30种用户画像对应的评论,确保评论的多样性和身份一致性。

3.2 多亚群反馈理解

将生成评论按性别、年龄、教育水平三个视角划分为不同亚群,分别计算:1)亚群语义特征(评论嵌入向量的平均值);2)视角多样性表示(所有亚群对的KL散度拼接),全面捕捉用户观点的共性与差异。

3.3 聚合与分类

  • 视图内聚合:通过新闻特征与亚群语义特征的点积计算权重,加权求和得到单个视图的整体特征。
  • 视图间聚合:利用新闻特征和多样性表示引导门控网络,自适应分配三个视角的权重,生成最终评论特征。
  • 分类:结合新闻特征与评论特征,通过Sigmoid函数输出假新闻概率,采用交叉熵损失函数优化模型。

4 实验

4.1 实验设置

  • 数据集:Weibo21(中文)、GossipCop(英文)、LLM-mis(LLM生成假新闻),按时间或随机划分训练/验证/测试集。
  • 基线方法:纯内容型(BERT、ENDEF等)、基于真实评论型(dEFEND、DualEmo等)、LLM零样本方法及DELL(同类生成评论方法)。
  • 评价指标:准确率(Acc)、AUC、宏F1(macF1)、真假新闻F1分数(F1-fake/F1-real)。

4.2 主要结果(EQ1)

  • GenFEND能显著提升纯内容型模型性能,甚至媲美部分基于真实评论的模型。
  • 对基于真实评论的模型,GenFEND可进一步提升性能,证明生成评论的补充价值。
  • 在LLM-mis数据集上,GenFEND优于DELL的多种集成策略,验证框架有效性。

4.3 框架有效性(EQ2)

  • 消融实验:移除任意视角(性别/年龄/教育)或聚合模块(亚群加权/视图门控)均导致性能下降,证明各组件的必要性。
  • 鲁棒性实验:当真实评论数量极少(1-16条)时,GenFEND仍能提升检测性能,验证其在早期检测场景的优势。

4.4 生成评论的有效性(EQ3)

  • 生成评论 vs 真实评论:在多数情况下,生成评论的辅助效果优于真实评论,因其覆盖更多用户画像。
  • 沉默用户 vs 活跃用户:生成的沉默用户评论辅助效果优于活跃用户评论,证实沉默用户反馈的重要性。
  • 用户多样性:用户画像数量越多,检测性能越高,验证多样性对评论质量的关键作用。

5 案例分析

选取3个测试集案例进行深入分析:

  • 真实新闻案例:真实评论仅含质疑语气,生成评论补充正面反馈,帮助模型纠正误判。
  • 假新闻案例:生成评论包含更多质疑和求证观点,辅助模型正确识别假新闻。
  • 失败案例:生成评论多表达愤怒情绪,未质疑新闻核心意图,导致检测失败,暴露生成评论的局限性。

6 结论与讨论

总结GenFEND框架的核心价值——通过生成评论覆盖沉默用户反馈,提升假新闻检测的全面性和早期检测能力。讨论指出LLMs的双重角色(既是假新闻生成者,也是检测辅助工具),并提出未来方向:扩展更多用户属性、优化生成评论的利用策略、测试开源LLM的适用性。