Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language Models
Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language Models
论文概览
本文假设大型语言模型(LLMs)可通过角色扮演生成涵盖活跃与沉默用户的多样化评论,弥补真实评论的局限性;提出GenFEND框架,通过多视角评论生成、多亚群反馈理解及聚合分类实现假新闻检测增强;在Weibo21、GossipCop和LLM-mis三个数据集上的实验表明,该框架显著提升了纯内容型和基于真实评论的检测模型性能,生成评论甚至优于部分真实评论;结论证实LLM生成评论是假新闻检测的有效补充,尤其适用于早期检测场景。
核心问题
现有基于用户评论的假新闻检测方法面临三大瓶颈:1)新闻传播早期难以获取足够评论;2)真实评论仅反映活跃用户观点,沉默用户(如高学历专业群体)的反馈缺失导致观点片面;3)暴露偏差使真实评论分布不稳定,模型难以挖掘稳定模式,最终影响检测性能。
主要贡献
- 创新思路:首次提出利用LLMs角色扮演模拟不同类型用户,生成多样化评论替代真实评论,覆盖沉默用户的潜在反馈。
- 框架设计:构建GenFEND框架,通过多视角评论生成、多亚群反馈理解及跨视图聚合,实现对用户反馈的全面解析。
- 实证验证:在三个公开数据集上验证了框架有效性,证明生成评论在多样性和检测辅助效果上的优势,代码开源供后续研究参考。
研究方法
GenFEND框架核心分为三模块:
- 多视角评论生成:基于性别(2类)、年龄(5类)、教育水平(3类)组合生成30种用户画像,通过提示词引导LLM生成符合身份的自然评论。
- 多亚群反馈理解:采用预训练句子编码器将评论转化为嵌入向量,计算每个亚群的平均语义特征$s_{p}^{mean }=\frac{1}{\left|E^{c_{p}}\right|} \sum_{e_{i}^{c} \in E^{c p}} e_{i}^{c}$,并通过KL散度计算亚群间多样性$d_{p, q}=\frac{1}{\left|E^{c_{p}}\right|\left|E^{c_{q}}\right|} \sum_{e_{i}^{c} \in E^{c_{p}}, e_{j}^{c} \in E^{c_{q}}} kl_{-} div\left(\hat{e}{i}^{c}, \hat{e}{j}^{c}\right)$。
- 聚合与分类:通过视图内点积加权聚合($w^{\mathcal{V}}=Softmax\left(s_{cat }^{\mathcal{V}} \cdot e^{o^{\top}} / \sqrt{dim}\right)$)和视图间门控融合($a=Softmax(G(e^{o}\oplus d;\theta ))$)得到最终特征,结合新闻内容特征通过MLP完成二分类。
各章节详解
1 引言
首先阐述假新闻的危害(如引发市场恐慌、社会风险)及现有检测方法的局限:纯内容型方法易受伪装假新闻欺骗,基于真实评论的方法受评论数量和质量限制。随后提出核心动机——利用LLMs的角色扮演能力生成多样化评论,弥补真实评论中沉默用户反馈缺失和分布偏差问题,最后概述GenFEND框架的核心逻辑和主要贡献。
2 相关工作
- 假新闻检测:分为纯内容型(提取文本/视觉特征)和外部资源型(利用用户、评论、传播结构等),指出基于评论的方法依赖真实评论质量的痛点。
- 新闻相关评论生成:现有研究多聚焦于提升评论与新闻的相关性,或用于攻击检测模型,而本文首次将生成评论用于补充沉默用户反馈,辅助假新闻检测。
3 提出的框架:GenFEND
3.1 多视角评论生成
设计标准化提示词模板,包含系统提示(明确用户身份)和上下文提示(输入新闻内容),引导LLM生成30种用户画像对应的评论,确保评论的多样性和身份一致性。
3.2 多亚群反馈理解
将生成评论按性别、年龄、教育水平三个视角划分为不同亚群,分别计算:1)亚群语义特征(评论嵌入向量的平均值);2)视角多样性表示(所有亚群对的KL散度拼接),全面捕捉用户观点的共性与差异。
3.3 聚合与分类
- 视图内聚合:通过新闻特征与亚群语义特征的点积计算权重,加权求和得到单个视图的整体特征。
- 视图间聚合:利用新闻特征和多样性表示引导门控网络,自适应分配三个视角的权重,生成最终评论特征。
- 分类:结合新闻特征与评论特征,通过Sigmoid函数输出假新闻概率,采用交叉熵损失函数优化模型。
4 实验
4.1 实验设置
- 数据集:Weibo21(中文)、GossipCop(英文)、LLM-mis(LLM生成假新闻),按时间或随机划分训练/验证/测试集。
- 基线方法:纯内容型(BERT、ENDEF等)、基于真实评论型(dEFEND、DualEmo等)、LLM零样本方法及DELL(同类生成评论方法)。
- 评价指标:准确率(Acc)、AUC、宏F1(macF1)、真假新闻F1分数(F1-fake/F1-real)。
4.2 主要结果(EQ1)
- GenFEND能显著提升纯内容型模型性能,甚至媲美部分基于真实评论的模型。
- 对基于真实评论的模型,GenFEND可进一步提升性能,证明生成评论的补充价值。
- 在LLM-mis数据集上,GenFEND优于DELL的多种集成策略,验证框架有效性。
4.3 框架有效性(EQ2)
- 消融实验:移除任意视角(性别/年龄/教育)或聚合模块(亚群加权/视图门控)均导致性能下降,证明各组件的必要性。
- 鲁棒性实验:当真实评论数量极少(1-16条)时,GenFEND仍能提升检测性能,验证其在早期检测场景的优势。
4.4 生成评论的有效性(EQ3)
- 生成评论 vs 真实评论:在多数情况下,生成评论的辅助效果优于真实评论,因其覆盖更多用户画像。
- 沉默用户 vs 活跃用户:生成的沉默用户评论辅助效果优于活跃用户评论,证实沉默用户反馈的重要性。
- 用户多样性:用户画像数量越多,检测性能越高,验证多样性对评论质量的关键作用。
5 案例分析
选取3个测试集案例进行深入分析:
- 真实新闻案例:真实评论仅含质疑语气,生成评论补充正面反馈,帮助模型纠正误判。
- 假新闻案例:生成评论包含更多质疑和求证观点,辅助模型正确识别假新闻。
- 失败案例:生成评论多表达愤怒情绪,未质疑新闻核心意图,导致检测失败,暴露生成评论的局限性。
6 结论与讨论
总结GenFEND框架的核心价值——通过生成评论覆盖沉默用户反馈,提升假新闻检测的全面性和早期检测能力。讨论指出LLMs的双重角色(既是假新闻生成者,也是检测辅助工具),并提出未来方向:扩展更多用户属性、优化生成评论的利用策略、测试开源LLM的适用性。