Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language Models

发表于 2025-11-09 分类于论文阅读，智能体社会模拟本文字数： 2.7k 阅读时长 ≈ 5 分钟

Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language Models

论文概览

本文假设大型语言模型（LLMs）可通过角色扮演生成涵盖活跃与沉默用户的多样化评论，弥补真实评论的局限性；提出GenFEND框架，通过多视角评论生成、多亚群反馈理解及聚合分类实现假新闻检测增强；在Weibo21、GossipCop和LLM-mis三个数据集上的实验表明，该框架显著提升了纯内容型和基于真实评论的检测模型性能，生成评论甚至优于部分真实评论；结论证实LLM生成评论是假新闻检测的有效补充，尤其适用于早期检测场景。

核心问题

现有基于用户评论的假新闻检测方法面临三大瓶颈：1）新闻传播早期难以获取足够评论；2）真实评论仅反映活跃用户观点，沉默用户（如高学历专业群体）的反馈缺失导致观点片面；3）暴露偏差使真实评论分布不稳定，模型难以挖掘稳定模式，最终影响检测性能。

主要贡献

创新思路：首次提出利用LLMs角色扮演模拟不同类型用户，生成多样化评论替代真实评论，覆盖沉默用户的潜在反馈。
框架设计：构建GenFEND框架，通过多视角评论生成、多亚群反馈理解及跨视图聚合，实现对用户反馈的全面解析。
实证验证：在三个公开数据集上验证了框架有效性，证明生成评论在多样性和检测辅助效果上的优势，代码开源供后续研究参考。

研究方法

GenFEND框架核心分为三模块：

多视角评论生成：基于性别（2类）、年龄（5类）、教育水平（3类）组合生成30种用户画像，通过提示词引导LLM生成符合身份的自然评论。
多亚群反馈理解：采用预训练句子编码器将评论转化为嵌入向量，计算每个亚群的平均语义特征$s_{p}^{mean }=\frac{1}{\left|E^{c_{p}}\right|} \sum_{e_{i}^{c} \in E^{c p}} e_{i}^{c}$，并通过KL散度计算亚群间多样性$d_{p, q}=\frac{1}{\left|E^{c_{p}}\right|\left|E^{c_{q}}\right|} \sum_{e_{i}^{c} \in E^{c_{p}}, e_{j}^{c} \in E^{c_{q}}} kl_{-} div\left(\hat{e}{i}^{c}, \hat{e}{j}^{c}\right)$。
聚合与分类：通过视图内点积加权聚合（$w^{\mathcal{V}}=Softmax\left(s_{cat }^{\mathcal{V}} \cdot e^{o^{\top}} / \sqrt{dim}\right)$）和视图间门控融合（$a=Softmax(G(e^{o}\oplus d;\theta ))$）得到最终特征，结合新闻内容特征通过MLP完成二分类。

各章节详解

1 引言

首先阐述假新闻的危害（如引发市场恐慌、社会风险）及现有检测方法的局限：纯内容型方法易受伪装假新闻欺骗，基于真实评论的方法受评论数量和质量限制。随后提出核心动机——利用LLMs的角色扮演能力生成多样化评论，弥补真实评论中沉默用户反馈缺失和分布偏差问题，最后概述GenFEND框架的核心逻辑和主要贡献。

2 相关工作

假新闻检测：分为纯内容型（提取文本/视觉特征）和外部资源型（利用用户、评论、传播结构等），指出基于评论的方法依赖真实评论质量的痛点。
新闻相关评论生成：现有研究多聚焦于提升评论与新闻的相关性，或用于攻击检测模型，而本文首次将生成评论用于补充沉默用户反馈，辅助假新闻检测。

3 提出的框架：GenFEND

3.1 多视角评论生成

设计标准化提示词模板，包含系统提示（明确用户身份）和上下文提示（输入新闻内容），引导LLM生成30种用户画像对应的评论，确保评论的多样性和身份一致性。

3.2 多亚群反馈理解

将生成评论按性别、年龄、教育水平三个视角划分为不同亚群，分别计算：1）亚群语义特征（评论嵌入向量的平均值）；2）视角多样性表示（所有亚群对的KL散度拼接），全面捕捉用户观点的共性与差异。

3.3 聚合与分类

视图内聚合：通过新闻特征与亚群语义特征的点积计算权重，加权求和得到单个视图的整体特征。
视图间聚合：利用新闻特征和多样性表示引导门控网络，自适应分配三个视角的权重，生成最终评论特征。
分类：结合新闻特征与评论特征，通过Sigmoid函数输出假新闻概率，采用交叉熵损失函数优化模型。

4 实验

4.1 实验设置

数据集：Weibo21（中文）、GossipCop（英文）、LLM-mis（LLM生成假新闻），按时间或随机划分训练/验证/测试集。
基线方法：纯内容型（BERT、ENDEF等）、基于真实评论型（dEFEND、DualEmo等）、LLM零样本方法及DELL（同类生成评论方法）。
评价指标：准确率（Acc）、AUC、宏F1（macF1）、真假新闻F1分数（F1-fake/F1-real）。

4.2 主要结果（EQ1）

GenFEND能显著提升纯内容型模型性能，甚至媲美部分基于真实评论的模型。
对基于真实评论的模型，GenFEND可进一步提升性能，证明生成评论的补充价值。
在LLM-mis数据集上，GenFEND优于DELL的多种集成策略，验证框架有效性。

4.3 框架有效性（EQ2）

消融实验：移除任意视角（性别/年龄/教育）或聚合模块（亚群加权/视图门控）均导致性能下降，证明各组件的必要性。
鲁棒性实验：当真实评论数量极少（1-16条）时，GenFEND仍能提升检测性能，验证其在早期检测场景的优势。

4.4 生成评论的有效性（EQ3）

生成评论 vs 真实评论：在多数情况下，生成评论的辅助效果优于真实评论，因其覆盖更多用户画像。
沉默用户 vs 活跃用户：生成的沉默用户评论辅助效果优于活跃用户评论，证实沉默用户反馈的重要性。
用户多样性：用户画像数量越多，检测性能越高，验证多样性对评论质量的关键作用。

5 案例分析

选取3个测试集案例进行深入分析：

真实新闻案例：真实评论仅含质疑语气，生成评论补充正面反馈，帮助模型纠正误判。
假新闻案例：生成评论包含更多质疑和求证观点，辅助模型正确识别假新闻。
失败案例：生成评论多表达愤怒情绪，未质疑新闻核心意图，导致检测失败，暴露生成评论的局限性。

6 结论与讨论

总结GenFEND框架的核心价值——通过生成评论覆盖沉默用户反馈，提升假新闻检测的全面性和早期检测能力。讨论指出LLMs的双重角色（既是假新闻生成者，也是检测辅助工具），并提出未来方向：扩展更多用户属性、优化生成评论的利用策略、测试开源LLM的适用性。