TrendSim: Simulating Trending Topics in Social Media Under Poisoning Attacks with LLM-based Multi-agent System

TrendSim: Simulating Trending Topics in Social Media Under Poisoning Attacks with LLM-based Multi-agent System

论文概览

本文假设现有社交模拟框架缺乏时间敏感性、集中式消息传播机制和用户心理动态建模,无法适配趋势话题场景下的投毒攻击研究,提出基于大语言模型(LLM)的多智能体系统TrendSim,通过设计时间感知交互机制、集中式传播模块和类人智能体,结合三类原型攻击者模拟投毒攻击,经多维度评估验证了系统的有效性,最终通过实验揭示了投毒攻击的负面影响、用户心理动态变化、易感用户群体及内容审查的防御效果,为社交媒体趋势话题的投毒攻击防御提供了理论支持和实践参考。

核心问题

  1. 趋势话题因爆发性强、曝光度高,易成为投毒攻击的目标,但现有研究对该场景下的投毒攻击关注不足。
  2. 现有社交模拟框架存在局限(忽略时间因素、基于点对点传播、缺乏用户心理动态建模),无法精准模拟趋势话题的传播特性和攻击场景,难以支撑相关研究。
  3. 需构建适配趋势话题场景的模拟系统,系统探究投毒攻击的影响、用户响应规律及有效防御策略。

主要贡献

  1. 提出首个针对社交媒体趋势话题投毒攻击的LLM多智能体模拟系统TrendSim,整合时间感知交互机制、集中式消息传播和用户-环境交互系统,精准适配趋势话题场景。
  2. 设计包含感知、记忆、行动模块的LLM类人用户智能体,及反社会、挑衅、谣言三类原型攻击者,能高效模拟真实用户行为和多样化投毒攻击。
  3. 从用户智能体、攻击者、多智能体系统、模拟效率四个维度完成系统评估,并基于该系统研究四个关键问题,为投毒攻击防御提供关键洞察。

研究方法

  1. 多智能体模拟环境:包含时间感知交互机制(基于动态优先级队列和三阶段概率分布P(t))、集中式消息传播(公共描述、评论、回复三层传播)、用户-环境交互系统(浏览页、主页、评论页三级页面及对应行动空间)。
  2. LLM类人用户智能体:基于认知心理学设计感知模块(生成浏览印象)、记忆模块(长时/短时/瞬时记忆)和行动模块(生成互动行为),实现行为与心理一致性。
  3. 原型攻击者:按攻击目标分为反社会攻击者、挑衅攻击者、谣言攻击者,基于预定义原型和当前观测生成投毒评论。
  4. 实验与评估:采集1000名真实社交用户数据,选取10个多领域趋势话题,以GLM-3-turbo为基础模型,从行为一致性、心理一致性、攻击一致性、隐蔽性等指标评估系统性能。

各章节详解

1. 引言(Introduction)

  • 背景:趋势话题已成为社交媒体核心组成部分(如微博热搜、Twitter Trends),具有爆发性传播和高曝光度特征,但也为投毒攻击提供了温床,此类攻击通过操纵信息误导用户、挑起冲突,破坏社会信任。
  • 现有研究不足:传统社交模拟框架多采用回合制交互(忽略时间敏感性)、基于点对点传播(与趋势话题的集中式曝光不符),且未关注用户心理动态和趋势话题场景的投毒攻击。
  • 研究目标:提出LLM-based多智能体系统TrendSim,模拟趋势话题全生命周期中的用户互动和投毒攻击,探究相关关键问题,为防御策略制定提供支撑。
  • 研究局限说明:因不同平台趋势话题机制存在差异,本文抽象了通用模型;受现实中不可观测因素影响,模拟未复刻所有细节,重在提供可解释的演化结论。

2. 相关工作(Related Works)

2.1 社交媒体投毒攻击(Poisoning Attack in Social Media)

  • 现有研究聚焦社交网络常规内容的投毒攻击,发现攻击行为多通过发布冒犯性内容、利用人类脆弱性传播仇恨或网络欺凌,但对趋势话题这一高影响场景的投毒攻击研究不足。

2.2 LLM-based多智能体社交模拟(LLM-based Multi-agent Social Simulation)

  • LLM凭借强大的语言理解和生成能力,已被用于构建社交模拟智能体(如S3、Generative Agents),但现有框架缺乏时间敏感性、集中式传播机制和用户心理建模,无法适配趋势话题场景。

3. 方法(Methods)

image-20251117135535503

3.1 TrendSim整体框架

  • 核心目标:模拟趋势话题从出现到消失的全生命周期(通常不超过数小时),涵盖用户互动和投毒攻击过程。

3.2 多智能体模拟环境(Multi-agent Simulation Environment)

  • 时间感知交互机制:交互按时间戳T和持续时长Δt有序执行,用户访问概率分布P(t)满足G0-光滑和G1-光滑,分三阶段建模: $ P(t) $ 其中A为趋势话题爆发度参数,αTm为调节曲线的超参数。
  • 集中式消息传播:通过公共描述(标题、摘要、全文)、用户评论、评论回复三层结构,实现信息向所有用户的集中式扩散。
  • 用户-环境交互系统:设计浏览页(查看摘要或退出)、主页(点赞/评论/转发等操作)、评论页(点赞/回复/返回)三级页面,定义用户观测空间、行动空间及环境反馈机制。

3.3 LLM-based用户智能体(LLM-based User Agent)

  • 感知模块:基于观测O、记忆M和LLM函数f生成印象I,即I ← Perception(f, O, M),体现用户注意力差异。
  • 记忆模块:包含长时记忆(用户画像,由真实社交帖子提炼,ml ← LTM(f, {p1, p2, ..., pN}))、短时记忆(情绪、观点、社会信心,通过反射过程动态更新ms ← Reflection(f, I, A, ms))、瞬时记忆(当前印象mf = I)。
  • 行动模块:基于观测和记忆生成互动行为,即A ← Action(f, O, M),涵盖点赞、评论、转发等操作。

3.4 原型攻击者智能体(Prototype-based Attacker Agent)

  • 生成逻辑:基于预定义原型P和当前观测O,通过LLM生成投毒评论 ← Action(f, P, O)
  • 攻击类型:反社会攻击者(破坏社会信任)、挑衅攻击者(冒犯他人、挑起群体冲突)、谣言攻击者(传播虚假信息、混淆真相)。

4. 评估(Evaluations)

4.1 实验设置

  • 数据:1000名真实社交用户的匿名画像、10个多领域/多情绪趋势话题,攻击比例分为0%(SE)、10%(PA-10)、30%(PA-30)、50%(PA-50)四类。
  • 基础模型:GLM-3-turbo,趋势话题生命周期设为16小时,硬件环境为Intel® Xeon® Gold-5118(48核)CPU。

4.2 各模块评估结果

  • 用户智能体:行为一致性平均0.915,心理一致性平均0.826,优于GPT-4、Llama-3等LLM基线和人类基线,验证了类人行为模拟能力。
  • 攻击者智能体:攻击评论的一致性平均0.837,隐蔽性平均0.518,显著优于基线模型,说明生成的投毒评论相关性强、难被检测。
  • 多智能体系统:讨论合理性平均0.806,用户多样性平均0.766,各情绪话题下表现稳定,证明系统交互的合理性和多样性。
  • 模拟效率:1000名参与者的趋势话题模拟耗时约16小时,随攻击比例提升耗时略有下降,具备规模化扩展潜力。

5. 实验(Experiments)

问题1:投毒攻击的负面影响

  • 投毒攻击对用户情绪和社会信心存在负面影响,其中正面情绪趋势话题受影响最大(与投毒评论反差显著);攻击影响与攻击比例并非线性相关,少量攻击者可能引发较大冲击。

问题2:用户心理动态变化

  • 用户心理在趋势话题生命周期中期出现急剧下滑,该阶段对应大量用户同时参与互动;50%攻击比例(PA-50)在全周期内产生最严重的负面影响。

问题3:易感用户群体

  • 关注社会类话题的用户最易受投毒攻击影响,而娱乐类话题用户受影响最小,与直觉形成一定反差。

问题4:内容审查的防御效果

  • LLM-based内容审查能有效缓解投毒攻击的负面影响,提升用户态度一致性,但会带来额外计算成本,且可能存在判断偏差。

6. 结论(Conclusion)

  • 核心成果:构建了首个适配趋势话题投毒攻击研究的LLM多智能体系统TrendSim,通过多维度评估验证其有效性,并揭示了投毒攻击的关键规律和防御策略。
  • 局限性:仅支持文本形式模拟,未纳入图片等多模态信息;基于部分假设构建模型,难以完全复刻现实中所有不可观测因素。
  • 未来方向:优化LLM智能体的记忆机制,拓展多模态模拟能力,开展更大规模的社交模拟以适配更多应用场景。

要不要我帮你整理一份TrendSim系统核心组件与实验结果对照表,方便快速查阅关键技术细节和量化结论?