Fine-grained User Behavior Simulation on Social Media Based on Role-playing Large Language Models

Fine-grained User Behavior Simulation on Social Media Based on Role-playing Large Language Models

论文概览

本文假设大型语言模型(LLMs)可通过细粒度行为分解与观察-记忆导向推理提升社交媒体用户行为模拟准确性,提出了细粒度行为模拟数据集FineRob与OM-CoT微调方法,通过对9个主流LLM的实验验证,发现观察-记忆型推理优于角色刻板印象推理,OM-CoT能显著提升行为三要素(对象、类型、内容)模拟的F1分数,最终证实该数据集与方法为LLMs精准模拟社交媒体用户行为提供了有效基准与技术方案。

核心问题

现有LLMs在角色扮演任务中表现突出,但在真实社交媒体场景中,对用户行为的精准模拟研究有限,缺乏细粒度的行为分解与针对性优化方法。核心问题是:如何实现LLMs对社交媒体用户细粒度行为(行为对象、行为类型、行为内容)的精准模拟,识别影响模拟效果的关键推理模式与核心因素,进而提出有效的模型优化策略。

主要贡献

  1. 构建了首个细粒度行为模拟数据集FineRob:涵盖Twitter、Reddit、知乎三大平台1866名真实用户的78.6k QA记录,以多语言(英、中)、细粒度(对象-类型-内容三要素)为特色,为LLMs行为模拟能力评估提供了贴近真实场景的基准。
  2. 系统评估了9个主流LLM的行为模拟能力:识别出“角色刻板印象推理”与“观察-记忆型推理”两种核心模式,揭示了不同模式对模拟准确性的影响。
  3. 提出OM-CoT(Observation and Memory-based Chain of Thought)微调方法:通过引入特殊令牌<ANA>(观察分析)与<MEM>(记忆分析),将观察与记忆推理显式融入LLMs的思考过程,显著提升了三类细粒度行为模拟任务的性能。

研究方法

  1. 数据集构建:从三大社交媒体平台收集活跃用户行为历史,按“行为对象-行为类型-行为内容”分解每条行为,构建多选项QA格式的训练集(61k)与测试集(17.6k),确保训练集与测试集无用户重叠以验证泛化性。
  2. 推理模式分析:通过零样本Chain of Thought(CoT)实验,分析LLMs在行为模拟中的推理逻辑,识别并对比两种核心推理模式的效果。
  3. OM-CoT微调框架:首先利用强LLM生成Oracle CoT(确保推理基于正确答案);再用<ANA><MEM>令牌重组推理文本,区分观察分析与历史记忆分析;最后基于重组数据集进行有监督微调(SFT),优化模型推理模式。
  4. 实验设计:以F1分数为评估指标,对比9个LLM(3个商业模型、6个开源模型)在零样本、少样本、标准CoT微调与OM-CoT微调四种设置下的表现,通过消融实验验证提示词组件、历史数据量、特殊令牌的影响。

各章节详解

1. 引言(Introduction)

本章围绕LLMs的角色扮演能力与真实场景行为模拟的研究缺口展开:首先介绍LLMs在角色扮演任务中已展现的对话生成能力(贴合角色风格、知识与性格),以及现有代理框架的延伸,但指出其在复杂真实场景(如社交媒体)中精准模拟人类行为的挑战;其次明确研究核心——社交媒体用户细粒度行为模拟,基于“用户行为是自我呈现与自我披露的体现”这一前提,提出将行为分解为对象、类型、内容三要素的研究思路;最后预告FineRob数据集与OM-CoT方法的核心设计,并概述论文的三大贡献。

2. 相关工作(Related Work)

本章分为两部分梳理领域现状: - 角色扮演LLMs(Role-Playing LLM):总结现有研究依赖的对话数据集(真实个体或虚构角色数据),以及上下文学习(ICL)、检索增强生成(RAG)、有监督微调等优化技术,指出当前研究仍聚焦于对话模仿,处于早期阶段。 - LLM驱动的用户行为模拟(LLM for User Behavior Simulation):回顾LLMs在偏好模拟、推荐系统优化等领域的应用,对比“LIFECHOICE”等现有数据集的宏观决策模拟局限,强调本文聚焦“真实场景细粒度微观行为模拟”的创新性,填补了领域空白。

3. FineRob数据集(FineRob Dataset)

本章详细介绍数据集的构建过程,是研究的核心基础: - 数据收集:明确数据来源为Twitter(X)、Reddit(英文为主)与知乎(中文为主),遵循“热门性、多样性、活跃性”三大原则,筛选至少有70条可访问历史行为的活跃用户,排除疑似机器人或多用户操作的账号,通过API与工具采集用户时间线数据。 - 细粒度行为构建:将每条原始行为分解为“对象(行为接收方)、类型(行为性质)、内容(具体细节)”三要素,针对三要素设计多选项QA(例如行为类型选项含评论、点赞、转发等,见表2);通过句子嵌入计算相似度,选取与正确选项情感贴近的干扰项,提升任务难度;最终划分训练集与测试集,确保用户无重叠。 - 数据集特色:通过与现有数据集的对比(表1),突出FineRob“真实数据、细粒度、多语言、行为导向”的独特优势。

4. 方法(Methodology)

本章聚焦推理模式分析与OM-CoT微调方法设计: - 初步分析(Preliminary Analysis):通过零样本CoT实验,发现两种核心推理模式:①角色刻板印象推理(过度依赖用户画像,准确性较低);②观察-记忆型推理(结合当前选项与历史行为,准确性更高,先进模型如GPT-4o更偏好此模式);通过量化推理文本与提示词各部分的相似度,证实“聚焦历史数据与观察选项”比“单纯分析角色画像”更有效。 - OM-CoT微调:分三步实现:①Oracle CoT生成:用强LLM生成基于正确答案的推理文本,避免错误传播;②特殊令牌重组:用<ANA>包裹对当前选项的观察分析,<MEM>包裹对历史行为的记忆分析,明确推理逻辑;③有监督微调:基于重组后的60k指令数据,采用LoRA进行高效参数微调,优化模型推理模式。

5. 实验(Experiment)

本章是研究结论的核心支撑,包含实验设计、结果分析与深入讨论: - 实验设置:详细说明评估模型(3个商业模型如GPT-4o、6个开源模型如Llama3-8b)、基线方法(零样本、少样本、标准CoT微调)、提示词结构(任务描述+角色画像+行为历史+输出要求)与实现细节(LoRA参数、训练硬件、解码策略、F1评估指标)。 - 主要结果:①商业闭源模型表现优于开源模型(平均F1领先约15%),推测因行为模拟需共情与历史行为反思能力;②大模型未必更优(如Qwen2-72B在Reddit任务中表现不及小模型Solar-10.7B),小模型展现更均衡的任务适应性;③OM-CoT微调显著提升性能(Mistral-7B平均F1提升4.5%,Solar-10.7B部分任务提升9.8%);④短内容行为(如Reddit简洁评论)模拟仍具挑战,微调效果有限。 - 讨论:通过三个研究问题的消融实验展开:①提示词组件中“行为历史”最重要(移除后OM-CoT模型F1下降44.8%),角色信息对内容模拟更关键;②历史数据量以30条最优,过多数据引入噪声;③<ANA><MEM>令牌均有效(移除任一导致性能下降),前者对行为类型模拟更重要,后者对内容模拟更关键,对象模拟需两者均衡。 - 伦理考量:指出LLMs逼真的行为模拟能力在带来应用价值的同时,可能引发虚假信息传播、恶意机器人增殖等风险,本文研究也为识别LLM驱动的社交机器人提供了行为模式洞察。

6. 结论(Conclusion)

本章总结全文核心工作:重申FineRob数据集的价值(真实、细粒度、多语言基准),强调两种推理模式的发现对理解LLMs行为模拟机制的意义,证实OM-CoT微调方法能有效引导模型采用更优的观察-记忆型推理,提升社交媒体用户细粒度行为模拟的准确性。最终指出,该研究为LLMs在真实场景行为模拟领域的发展提供了数据支撑与技术参考。