Unveiling the Truth and Facilitating Change: Towards Agent-based Large-scale Social Movement Simulation

发表于 2025-11-03 更新于 2025-11-06 分类于论文阅读，智能体社会模拟本文字数： 4.3k 阅读时长 ≈ 8 分钟

Unveiling the Truth and Facilitating Change: Towards Agent-based Large-scale Social Movement Simulation 2024.6

ACL

一、论文概览

1. 核心问题

现有社交媒体社会运动模拟方法存在三大关键挑战：

准确性：如何精准模拟社交媒体用户的社区行为与态度动态；
效率：LLM（大语言模型）虽能模拟复杂行为，但大规模部署（如数千个LLM）成本过高，难以覆盖海量用户；
评估：缺乏统一的基准与多维度评估策略，无法全面验证模拟效果。

2. 主要贡献

提出混合模拟框架HiSim：基于社交媒体用户参与的帕累托分布，将用户分为“核心用户”（活跃且有影响力，如意见领袖，用LLM建模）与“普通用户”（海量沉默用户，用演绎式Agent-based Models（ABM）建模），平衡准确性与效率；
构建类Twitter社会运动模拟器：包含时间线消息流、离线新闻推送机制，可模拟用户交互与集体态度演化；
建立首个社会运动模拟基准SoMoSiMu-Bench：涵盖3个真实社会运动数据集（#Metoo、#RoeOverturned、#BlackLivesMatter），并设计微观（个体行为对齐）与宏观（系统舆论动态）双层评估策略。

3. 研究方法

混合建模：核心用户采用“LLM+多模块架构”（Profile模块、Memory模块、Action模块），模拟复杂行为；普通用户采用ABM，通过态度更新函数$f_{update}$、选择函数$f_{selection}$、消息函数$f_{message}$模拟态度变化；
环境构建：还原Twitter-like生态（个人/公共时间线、离线新闻触发）；
评估体系：基于SoMoSiMu-Bench，微观评估立场/内容/行为对齐，宏观评估态度分布与时间序列相似度。

二、各章节详解

1. 引言（Introduction）

背景：社交媒体是社会运动的核心载体（如阿拉伯之春、#Metoo），但大规模参与可能升级为暴力，需提前预测影响；
现有研究局限：传统分析多为“回顾性内容挖掘”（如Giorgi et al., 2022），缺乏模拟预测能力；ABM虽用于社会模拟，但难以捕捉复杂用户行为；LLM在推荐、协作等领域有应用，但大规模社会运动模拟研究较少；
提出HiSim框架与三大贡献，概述论文结构。

2. 舆论动力学模拟形式化（Formalization of Public Opinion Dynamics Simulation）

2.1 预备知识

ABM在舆论动力学中的核心组件：
1. 态度更新函数：定义个体态度变化，公式为$\Delta a_{i,t} = a_{i,t+1} - a_{i,t} = f_{update}(a_{i,t}, M_{i,t})$（公式1），其中$a_{i,t}$为用户$i$在$t$时刻的态度（$a_{i,t} \in [-1,1]$，符号表方向，绝对值表强度），$M_{i,t}$为用户$i$接收的消息集合；
2. 选择函数：确定影响用户$i$的其他用户集合$J_{i,t}$（如基于相似度或平台推荐）；
3. 消息函数：定义用户$j$传递的消息，公式为$m_{j,t} = f_{message}(a_{j,t})$（公式2），多数ABM假设$m_{j,t}=a_{j,t}$（无偏差传递）。
LLM赋能智能体：统一架构包含Profile（角色属性）、Memory（经验存储）、Planning（任务拆解）、Action（行为执行）模块，可模拟复杂文本生成行为。

2.2 任务定义

目标：模拟用户群体对社会运动的态度演化，对比模拟结果与真实场景；
核心变量：用户集合$U$，每个用户$i$的态度$a_{i,t} \in [-1,1]$，基于真实Twitter关注关系构建社交网络，实现“单轮行为复制”与“多轮舆论预测”。

基于帕累托分布（少数用户产生多数内容）分两类用户建模：

3.1 核心用户模拟

Profile模块：提取真实用户信息，包括：
- 人口统计（性别、政治倾向、账号类型，如活动家/记者）；
- 社会特质（活跃度、影响力，分3个层级）；
- 传播角色（基于Edelman的TOI框架：Idea Starter/Amplifier/Curator/Commentator/Viewer）。
Memory模块：
- 内容：个人经验（事件前历史推文）、事件记忆（事件后观察）；
- 操作：记忆写入（文本+向量存储）、检索（基于时效性/相关性/重要性/即时性）、反思（定期生成高层洞察）。
Action模块：支持5种行为：Post（发原创）、Retweet（转发，含直接/附加评论）、Reply（回复）、Like（点赞）、Do Nothing（沉默）。

3.2 普通用户模拟

初始态度：基于真实推文标注（用GPT-3.5和TextBlob标注立场与强度）；
态度变化：采用2.1.1的ABM组件（更新/选择/消息函数）。

3.3 智能体交互

同类型：核心用户用自然语言交互，普通用户用ABM消息函数交互；
异类型：核心用户生成的文本通过LLM标注立场、情感分析算强度，转化为态度分数输入普通用户ABM。

3.4 模拟环境与过程

环境：类Twitter时间线（个人关注者推文+公共推文）、离线新闻推送（如George Floyd事件）；
过程：单轮（输入真实上下文，验证行为复制）、多轮（输入模拟上下文，预测舆论演化）。

4.1 数据集

覆盖3个社会运动，每个运动2个阶段，统计如下（表1）：

数据集	阶段	用户数	推文数	时间范围
Metoo	E1（#Metoo启动）	1000	18638	2017-10-15至22
	E2（#Timesup活动）	1000	13291	2018-01-06至13
RoeOverturned	E1（最高法院草案泄露）	1000	61687	2022-05-02至09
	E2（推翻Roe v. Wade）	1000	59829	2022-06-24至07-01
BlackLivesMatter	P1（Floyd遇害后）	1000	10710	2020-05-25至06-01
	P2（后续阶段）	1000	21480	2020-06-02至09

用户选择：300核心用户（前100高影响力+200高活跃）、700普通用户（随机抽样）。

4.2 微观对齐评估

立场对齐：分类支持/中立/反对，报告Acc、F1、态度分数MAE；
内容对齐：分类Call for Action/Sharing of Opinion等5类，报告Acc、F1、文本余弦相似度；
行为对齐：评估Post/Retweet选择，报告Acc、F1。

4.3 宏观系统评估

静态态度分布：Bias（均值偏离中立的程度）、Diversity（态度标准差），报告$\Delta Bias$（模拟-真实）、$\Delta Div$；
时间序列：用DTW（动态时间规整）衡量相似度、Pearson相关系数衡量趋势一致性；
参数校准：在纯ABM上通过参数扫描（如$\alpha$、$\varepsilon$）找最优参数，应用于混合模型。

5. 实验（Experiments）

5.1 实验设置

基线：5种纯ABM（BC、HK、RA、SJ、Lorenz）；
LLM：GPT-3.5-Turbo-0613（max tokens=256，temperature=0，确保确定性）；
工具：核心用户用AgentVerse，普通用户用mesa库；
模拟步数：每个事件14步（基于真实用户平均发帖间隔）。

5.2 微观对齐结果（表2）

立场：Acc高达0.899-0.968，但F1低（0.336-0.374），因LLM倾向生成明确立场，缺乏真实用户的复杂行为（如分享链接）；
内容：余弦相似度近80%，擅长复制“Call for Action”和“Sharing of Opinion”，但难生成“Testimony”（缺乏离线经验）；
行为：Acc超72%，因Profile模块的社会特质与传播角色有效引导行为选择（消融实验验证，表7）。

5.3 宏观系统结果（表3）

混合模型全面优于纯ABM：$\Delta Bias$、$\Delta Div$更小，DTW更低（相似度更高），Pearson相关更高（趋势更一致）；
最优组合：基于RA和Lorenz的混合模型（因二者擅长模拟极端主义场景，Chuang and Rogers, 2023）。

5.4 可扩展性分析（图3）

性能：普通用户数量增加时，除$\Delta Bias$外，其他指标仅轻微下降，支持抽样模拟；
效率：运行时主要依赖LLM API调用，普通用户规模扩大（至1万）几乎无额外开销，可扩展至百万级（需硬件优化）。

5.5 进一步分析

回声室复制：内容生产与消费的相似度随轮次上升（图4），验证框架能还原回声室现象；
干预策略：S3（建立公共讨论空间）在减少回声室的同时，毒性最低（表4），优于S1（投喂对立观点，增加毒性）和S2（投喂中立观点）。

社交媒体用户建模：从文本特征工程→图融合，LLM前局限于离散属性预测；
LLM赋能智能体：应用于推荐、协作，但大规模社会模拟研究少；
社会模拟：ABM分演绎（如BC模型）与归纳（依赖人类实验，成本高），LLM有望替代人类被试。

7. 结论与局限（Conclusion & Limitations）

结论：HiSim框架通过LLM-ABM混合建模，在SoMoSiMu-Bench上验证了有效性与灵活性；
局限：数据规模未达百万级（标注成本）、LLM生成内容偏向礼貌（与真实社交媒体用户有偏差）；
伦理：数据隐私（分享tweet id而非原始数据）、模拟向善（避免滥用标签，需告知工具局限）。

三、一句话总结

论文假设社交媒体用户参与符合帕累托分布，提出HiSim混合框架（核心用户用LLM+Profile/Memory/Action模块模拟复杂行为，普通用户用ABM高效模拟），构建类Twitter环境与SoMoSiMu-Bench基准，实验表明该框架在微观行为对齐（立场Acc超89%、行为Acc超72%）、宏观舆论预测（优于纯ABM）、可扩展性（支持万级用户）上表现优异，能还原回声室现象且S3干预策略可有效缓解回声室，为大规模社会运动模拟提供有效方案。