OASIS: OPEN AGENT SOCIAL INTERACTION SIMULATIONS WITH ONE MILLION AGENTS
OASIS: OPEN AGENT SOCIAL INTERACTION SIMULATIONS WITH ONE MILLION AGENTS 2024.11
一、论文概览
1. 核心问题
现有基于大型语言模型(LLM)的智能体基模型(ABM)存在两大关键局限:(1)通用性不足:多数模拟器针对特定场景设计,切换到其他社会现象研究时需大量修改,资源消耗高;(2)可扩展性低:仅能模拟少量智能体(最多数千),无法匹配真实社交媒体(如X、Reddit)的数百万用户规模,难以捕捉大规模群体涌现的复杂行为。
2. 主要贡献
- 提出通用可扩展的社交媒体模拟器OASIS:整合动态环境(动态社交网络、实时帖子更新)、多样动作空间(21种交互行为,如关注、评论、转发)和平台适配的推荐系统(X的兴趣匹配、Reddit的热度评分),支持百万级LLM智能体模拟。
- 验证模拟器有效性:在X和Reddit平台成功复现三大核心社会现象——信息传播、群体极化、从众效应,并发现LLM智能体的独特行为(如未审查LLM的群体极化更显著、智能体比人类更易从众)。
- 揭示智能体规模的影响:证明智能体数量越多,群体动态越活跃,智能体观点的多样性和帮助性越强;首次在百万级智能体中观察到谣言传播范围远超真实信息、用户逐渐形成孤立群体等现象。
3. 研究方法
OASIS基于五大核心组件构建,实现通用性与可扩展性:
- 环境服务器:用关系型数据库存储用户信息(姓名、简介)、帖子/评论数据、社交关系(关注、互关)和行为轨迹,支持实时动态更新。
- 推荐系统(RecSys):X平台分“网络内”(关注用户的帖子,按热度排序)和“网络外”(基于TwHIN-BERT计算用户-帖子兴趣相似度,结合时效性和发帖者粉丝数)推荐;Reddit平台用热度公式$h=\log {10}\left( \max\left( \left| u-d\right| ,1\right) \right) +\text{sign}(u-d)\cdot \frac {t-t{0}}{45000}$($h$为热度分,$u$点赞数,$d$点踩数,$t$提交时间,$t_0=1134028003$)排序帖子。
- 智能体模块:基于CAMEL框架,含记忆模块(存储帖子互动数据、历史行为及推理过程)和动作模块(21种交互行为,结合Chain-of-Thought(CoT)推理提升行为可解释性)。
- 时间引擎:用24维向量定义智能体每小时的活动概率,按3分钟/时间步激活智能体,同一时间步内通过线性映射真实时间记录精确时间戳。
- 可扩展推理器:采用分布式异步系统,通过GPU管理器平衡多GPU推理负载;结合“核心-普通用户”兴趣采样模型(普通用户以0.2概率关注核心用户)生成百万级智能体,保留社交网络无标度特性。
二、各章节详解
1. 引言(1 INTRODUCTION)
- 复杂社会系统的特性:由大量互联智能体构成,涌现行为无法通过个体分析预测(如社交媒体中的谣言传播、群体极化),ABM是研究这类系统的核心工具,但传统ABM基于阈值规则,忽略上下文依赖的行为变化。
- LLM智能体的优势:可模拟人类角色扮演、工具使用等复杂行为,但现有LLM-based ABM存在“场景绑定”(如仅针对X或特定现象)和“规模瓶颈”(最多数千智能体),无法满足大规模社交媒体研究需求。
- 研究动机:提出OASIS填补“通用+大规模”LLM-based ABM的空白,支持跨平台(X、Reddit)、多现象研究,为社会科学提供可控的虚拟实验环境。
2. 方法论(2 METHODOLOGY)

2.1 OASIS工作流(WORKFLOW)
- 注册阶段:输入真实/生成的用户信息(姓名、简介、历史帖子),为每个智能体生成角色描述(如“科技爱好者,经常评论IT新闻”)和动作指南。
- 模拟阶段:①环境服务器将用户信息、社交关系、帖子数据发送至推荐系统;②推荐系统筛选帖子推送给智能体;③时间引擎按活动概率激活智能体,智能体基于推荐内容和记忆模块选择行为(如点赞、评论);④智能体行为实时更新环境服务器数据(如新增帖子、更新关注关系)。
2.2 环境服务器(ENVIRONMENT SERVER)
- 核心组件:含用户表(基本信息)、帖子/评论表(内容、点赞数、时间戳)、关系表(关注、 mute)、轨迹表(历史行为)、推荐表(推荐系统输出),采用关系型数据库高效存储,支持动态插入新数据(如新增用户、评论)。
2.3 推荐系统(RECSYS)
- X平台推荐逻辑:①网络内帖子:按点赞数排序;②网络外帖子:用TwHIN-BERT(预训练于70亿条多语言推文)计算用户画像与帖子内容的余弦相似度,结合时效性$R=\ln \left(\frac{271.8-(t_{current }-t_{created })}{100}\right)$和发帖者粉丝分$F=\max \left(1, \log _{1000}( fan count +1)\right)$,最终评分$Score = R × F × S$($S$为相似度)。
- Reddit平台推荐逻辑:基于热度公式计算帖子得分,取Top-k帖子推荐,$k$可根据实验场景调整(如40时间步实验中$k=300$)。
2.4 智能体模块(AGENT MODULE)
- 记忆模块:存储帖子的互动数据(点赞数、评论数)、智能体历史行为(如“5分钟前点赞某帖子”)及CoT推理过程(如“因认同帖子观点,选择点赞并评论”)。
- 动作空间:支持21种行为,涵盖注册、刷新、搜索、发帖、转发、关注、点赞/踩(帖子/评论)、静音/取消静音等,覆盖真实社交媒体核心交互。
2.5 时间引擎(TIME ENGINE)
- 活动概率初始化:从真实用户历史发帖频率提取24小时活动概率(如“用户A在19:00-20:00活动概率0.8,3:00-4:00为0.1”);无真实数据时用自定义分布初始化。
- 时间步设计:1时间步=3分钟,平衡LLM推理速度与模拟精度;同一时间步内按线性映射记录时间戳(如该时间步第1分钟执行的行为,时间戳早于第2分钟的行为)。
2.6 可扩展设计(SCALABLE DESIGN)
- 分布式推理:智能体、环境服务器、推理服务独立运行,通过异步消息队列传递请求,线程安全字典存储响应,支持多智能体并发请求。
- 大规模用户生成:结合真实用户数据(如X的核心用户)和生成数据,按年龄、MBTI、职业的真实分布生成用户画像,通过兴趣采样构建社交网络,避免网络过密或过疏。
3. 实验(3 EXPERIMENT)
3.1 实验设计与研究问题
- 研究问题1:OASIS能否跨平台复现真实社会现象?——在X模拟信息传播、群体极化,在Reddit模拟从众效应。
- 研究问题2:智能体规模是否影响群体行为模拟准确性?——在196→10K→100K→1M智能体规模下测试群体极化、从众效应。
- 实验数据:①信息传播:Twitter15/16的198个实例(含9类话题,如商业、政治);②群体极化:196个X真实核心用户+生成用户(最多1M);③从众效应:Reddit的116,932条真实评论、21,919条反事实帖子(如“上海是亚特兰大的姐妹城市”);④LLM:基础模型为Llama3-8b-instruct,评估用GPT-4o-mini。
- 评估指标:
- 信息传播:规模(参与传播的用户数)、深度(传播树最大深度)、最大广度(某深度的最大用户数),用归一化RMSE($Normalized RMSE =\frac{\sqrt{\frac{1}{n} \sum_{i=1}^{n}(y_{simu }^{i}-y_{real }^{i})^{2}}}{y_{real }^{n}}$,$y_{simu}$为模拟值,$y_{real}$为真实值)衡量与真实数据的偏差。
- 群体极化:用GPT-4o-mini评估智能体观点的极端性(如“比初始观点更保守/激进”)和帮助性(基于Safe-RLHF的9项标准,如信息准确性、解释深度)。
- 从众效应:帖子评分($S_i=u_i-d_i$,$u_i$点赞数,$d_i$点踩数)、反对评分(1-10分,10表示完全反对反事实内容)。
3.2 关键实验结果
- 研究问题1结果:
- 信息传播(X):OASIS能复现规模和最大广度(归一化RMSE≈30%),但传播深度略低于真实数据(因真实推荐系统更复杂,用户画像精度有限)。
- 群体极化(X):智能体观点随交互逐渐极端化,未审查LLM(移除安全护栏)的极端性更显著(如使用“绝对应该”“绝不”等表述)。
- 从众效应(Reddit):智能体比人类更易从众——down-treated组(初始1个点踩)中,智能体给分显著低于人类,人类更倾向独立判断并提升帖子评分。
- 研究问题2结果:
- 群体极化:智能体规模从196增至100K时,观点多样性提升,帮助性显著提高(100K智能体的观点帮助性比196智能体高76.5%)。
- 从众效应(反事实内容):小规模(100智能体)无明显从众效应;规模达10K时,down-treated组的反对评分显著高于control组,群体层面实现“事实纠错”。
- 百万智能体实验(虚假信息传播):谣言传播范围是真实信息的1.5-2倍(因谣言更具新颖性和情绪刺激性),用户随交互逐渐形成孤立群体(用Neo4j可视化社交关系)。
4. 消融研究(4 ABLATION STUDY)
4.1 效率分析
- 百万级智能体模拟效率:1M智能体每时间步需18小时、27个A100 GPU;10万智能体每时间步需3小时、5个A100 GPU;每时间步新增帖子48.5K(1M规模)、5.2K(10万规模)。
4.2 组件消融结果
- 推荐系统:移除推荐系统会导致信息传播过早终止(仅核心用户广播);TwHIN-BERT比MiniLM、BERT更优(能识别“Barry Allen”与“The Flash”的关联,普通BERT无法做到)。
- 时间特征:用“全1活动概率”替代真实活动概率后,归一化RMSE提升40%,无法捕捉真实传播的时间动态(如夜间传播放缓)。
- LLM对比:Llama3-8b-instruct在信息传播模拟中的归一化RMSE低于Qwen1.5-7B-Chat、Internlm2-chat-20b,平衡效率与精度。
5. 结论(5 CONCLUSION)
- 总结OASIS的核心价值:通用(适配X、Reddit)、可扩展(百万智能体)、精准(复现真实社会现象),为社会群体动态、多智能体交互研究提供工具。
- 局限性:推荐系统未整合协同过滤,用户生成仍存在抽象性,动作空间未覆盖直播、打赏等功能,百万级模拟耗时较长。
- 未来方向:加入多模态内容(图像、视频),优化GPU推理速度,扩展至舆情管控、推荐系统测试等应用场景。
三、一句话总结
论文假设现有LLM-based ABM的通用性不足与可扩展性低阻碍了大规模社交媒体现象研究,通过构建含环境服务器、推荐系统等五大核心组件的OASIS模拟器,在X和Reddit平台复现信息传播等现象并开展消融研究,发现OASIS能以30%归一化RMSE复现真实传播、智能体规模提升观点多样性与帮助性、LLM智能体更易从众等结果,结论是OASIS可作为研究数字环境复杂系统的有力工具,为社会学、计算机科学等多学科提供支持。