Context-Aware Sentiment Forecasting via LLM-based Multi-Perspective Role-Playing Agents
BluePrint: A Social Media User Dataset for LLM Persona Evaluation and Training
论文概览
本文假设现有LLM社交媒体代理模拟存在缺乏标准化隐私保护数据集、评估协议不一致及难以捕捉真实用户行为复杂性的问题,通过提出隐私保护的SIMPACT框架(含用户聚类、多维度隐私防护)和基于Bluesky平台2025年加拿大联邦选举政治话语的BluePrint大规模数据集,采用多指标(聚类级+群体级)与人类评估相结合的方法对GPT系列、Qwen-2.5等模型进行基准测试,结果显示微调后的模型在文本生成逼真度上显著提升(人类区分准确率最低56%)但在行为模式复现上仍有不足,最终得出SIMPACT框架与BluePrint数据集为LLM社交媒体代理的严谨、伦理化开发提供关键基础的结论。
核心问题
- 现有LLM社交媒体模拟依赖简化场景,无法捕捉真实用户行为的复杂性(如多类型交互、上下文依赖行为);
- 缺乏标准化数据集与评估协议,导致模型性能评估不一致、进展难以量化;
- 真实用户数据的隐私风险限制了高质量数据集的构建,影响模拟真实性;
- 现有数据集多聚焦单轮对话或文本生成,缺乏文本与非文本交互结合的大规模隐私保护数据。
主要贡献
- SIMPACT框架:提出通用、隐私保护的数据集构建框架,通过用户行为聚类、PII移除、时间戳混淆等技术,平衡数据真实性与隐私安全,支持LLM社交媒体代理的训练与评估;
- BluePrint数据集:发布首个基于Bluesky平台的大规模公开数据集,含680万条动作记录、23.6万独特用户,覆盖12种社交交互类型,聚焦政治话语场景,支持多粒度用户行为建模;
- 基准测试与分析:对主流LLM(GPT-4.1-mini、o3-mini、Qwen-2.5)进行实证评估,提出集群级与群体级多维度评估指标,揭示现有模型在行为模式复现上的优势与局限。
研究方法
- 数据处理与隐私保护:采用Presidio工具移除PII、相对时间戳替换精确时间、基于加密哈希的伪匿名化(跨线程用户ID隔离)等措施;
- 用户聚类:通过intfloat/multilingual-e5-large模型生成用户嵌入,采用constrained K-means聚类(最小簇规模10)构建行为原型,支持K=2,25,100,1000多粒度聚类;
- 数据集构建:采集2025年3月Bluesky平台选举相关英文内容,过滤关键词(97个候选人账号、43个政党标识、11个选举术语),组织为多轮对话线程;
- 模型评估:设计多指标体系(最大余弦相似度、平均嵌入余弦相似度、Top-100 TF-IDF杰卡德相似度、JS散度、F1分数),结合人类评估(区分真实/AI生成内容),从文本逼真度与行为一致性双维度评估模型。
各章节详解
1. 引言
本章阐述社交媒体作为公共话语核心场景的重要性,以及LLM驱动社交模拟在研究虚假信息、极化现象等复杂问题中的独特价值。重点指出当前研究的三大局限:行为模拟简化、评估标准缺失、隐私数据受限。随后介绍SIMPACT框架的核心设计(行为聚类、隐私保护)与BluePrint数据集的定位(政治话语场景、多轮交互),并概述论文的三大核心贡献。
2. 相关工作
本章通过表格对比现有数据集(如Persona-Chat、FineRob)与BluePrint的差异,突出BluePrint在“大规模+隐私保护+文本-非文本动作结合+公开可获取”上的独特性。分别综述三类相关研究: - 社交媒体模拟环境:现有工作多依赖合成角色或脚本化交互,缺乏真实行为支撑; - LLM角色微调与引导:多聚焦静态数据集或单轮提示,缺乏多轮上下文依赖行为建模; - 模拟代理评估:现有指标侧重文本生成质量,缺乏群体级行为一致性评估。
3. SIMPACT框架
本章详细拆解框架核心组件: 1.
用户聚类:通过用户所有帖子的句子嵌入平均值生成用户表征,聚类后形成行为原型,平衡数据可用性与隐私安全;
2.
隐私保护措施:PII移除(替换邮箱、电话等敏感信息)、用户提及匿名化(@username替换为<USERNAME>)、时间戳混淆(按簇内顺序分配相对排名)、伪匿名化(基于密钥的跨线程ID隔离);
3.
动作集定义:划分12种社交动作,分为文本导向(发帖、回复、引用等8种)与用户导向(关注、取关、屏蔽等4种),将用户导向动作关联目标用户最新帖子;
4. 线程结构:采用BNF范式定义线程: < thread > : := < post > < posts > < action>, < posts > : := [ < post > ] < posts > |ϵ,以线程末尾动作发起者的簇标签为线程分类依据,支持“下一个动作预测”任务。
4. BluePrint数据集
本章介绍数据集具体实现: 1. 数据规模:680万条动作记录、236,331名独特用户,涵盖12种动作类型,其中“关注”动作占比最高(351.7万次); 2. 聚类与可解释性:提供多粒度聚类结果,通过TF-IDF关键词分析(如簇0聚焦“arxiv、科研相关术语”)与代表性帖子(medoid approximation)增强簇语义可解释性; 3. 数据特性:所有内容经过完全匿名化处理,保留对话上下文与交互模式,支持LLM学习“文本内容-交互行为”的关联。
5. 方法论
本章明确研究目标(构建能复现文本风格与交互模式的LLM社交代理),详细说明实验设计: 1. 模型设置:选取两类模型(专有模型GPT-4.1-mini、o3-mini;开源模型Qwen-2.5-7B-Instruct),对Qwen模型训练两种LoRA适配器(焦点损失、交叉熵损失); 2. 评估指标设计: - 文本层面:通过嵌入相似度(余弦相似度)、词汇重叠(杰卡德相似度)、分布一致性(JS散度)评估文本逼真度; - 行为层面:通过F1分数评估动作预测准确率; - 人类评估:让标注者区分真实/AI生成内容,以准确率(接近50%为最优)衡量模型拟人化程度; 3. 提示工程:设计结构化JSON输出提示,要求模型生成“动作+文本”组合响应,对7B模型采用“三候选筛选”策略优化输出质量。
6. 实验
本章呈现核心实验结果: 1. 簇级性能差异:簇1(行为一致性高)在杰卡德相似度(0.1364)、JS散度(0.0435)、F1分数(0.6220)上表现最优,簇6(行为异质性高)表现最差,说明模型性能依赖簇内行为一致性; 2. 模型对比:微调后的Qwen模型在文本指标上显著提升(杰卡德相似度提升10倍,JS散度降低50%),但行为预测F1分数(~0.35)与基线模型接近,表明现有模型难以捕捉复杂行为决策; 3. 人类评估结果:微调后最优模型的人类区分准确率为56%,显著低于未微调模型(71.9%),接近随机水平(50%),验证文本逼真度提升效果。
7. 伦理声明
本章强调数据集构建的伦理考量: - 严格遵守Bluesky服务条款,采用多层隐私保护措施降低重识别风险; - 提供用户数据删除申请通道,保障用户数据控制权; - 数据集采用“负责任使用许可”,限制非研究用途,防范虚假信息生成等滥用风险; - 承认技术的双重用途潜力,呼吁研究者关注模型伦理治理。
8. 结论与局限性
结论
本章总结SIMPACT框架与BluePrint数据集的核心价值,指出现有LLM在文本生成拟人化上的进展与行为模式复现上的不足,强调未来研究需聚焦“文本-行为”联合建模。
局限性
- 未捕捉用户“浏览未互动”的隐性行为,且未区分人类/自动化账号;
- 数据集存在平台偏差(Bluesky用户左倾倾向)、语言偏差(仅英文)与时间偏差(仅2025年3月);
- 将用户导向动作关联目标用户最新帖子的 heuristic 可能未完全反映真实用户意图。
附录
包含数据集关键词列表、聚类统计详情、模型微调细节(如数据增强、学习率设置)、人类评估实验流程、用户嵌入可视化结果等补充信息,为数据集复用与后续研究提供支撑。