From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling
From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling
论文概览
本文假设基于大语言模型(LLM)结合领域定义语句(domain-defining statements)的方法可解决现有社交媒体用户画像技术的可迁移性差、特征不可解释、依赖大量标注数据等局限;提出了“半监督领域过滤+LLM生成抽象/抽取式画像”的两阶段方法,并构建了配套评估框架与波斯政治推特数据集;实验结果显示该方法在立场检测任务上较现有方法显著提升9.8%,生成的画像兼具可解释性与领域适应性;结论证实该方法可在减少标注数据依赖的同时,为下游社交网络任务提供高效可用的用户画像。
核心问题
现有社交媒体用户画像技术存在四大关键局限:(1)可迁移性差,难以适配不同领域任务;(2)特征不可解释,无法直观反映用户核心特质;(3)依赖大规模标注数据集,成本高昂;(4)受限于预定义类别,适应性不足。而LLM在摘要生成与推理上的潜力尚未被充分应用于用户画像任务,亟需一种兼具可解释性、适应性与数据效率的新型画像方法。
主要贡献
- 提出一种半监督领域特异性过滤方法,仅需少量人工标注即可处理数百万条推文,高效筛选领域相关内容;
- 设计基于LLM的抽象式(合成描述)与抽取式(代表性推文选择)画像技术,生成自然语言形式的可解释性用户画像;
- 构建独立于下游任务的LLM辅助评估框架,结合人类验证确保画像质量;
- 发布波斯政治推特(X)数据集(PersianPol6M),为政治领域用户画像研究提供高质量资源;
- 实验验证该方法较现有主流方法性能提升9.8%,证实其在灵活性、适应性与可解释性上的优势。
研究方法
本文采用“数据过滤-画像生成-质量评估”的端到端 pipeline,核心分为三部分: 1. 半监督领域过滤:构建领域知识库,通过BGE-M3模型计算推文与知识库片段的余弦相似度,基于阈值公式标注领域相关内容,再用TookaBERT-Base训练分类器完成大规模过滤; 2. LLM-based用户画像:先通过分层抽样划分数据集,生成领域定义语句(立场声明),再通过四种推文池化方法筛选代表性内容,最后引导LLM生成“抽象式摘要+抽取式佐证推文”的双类型画像; 3. 内在评估框架:设计开放书籍问答(QA)任务,以立场检测为核心,通过人类标注构建“用户-声明”真值对,对比画像与用户完整历史的任务表现,衡量信息保留度。
各章节详解
1. 引言
本章首先阐述用户画像在虚假信息检测、参与度预测、仇恨言论监控等任务中的核心价值,随后系统梳理现有方法(推文摘要、属性中心式、潜在表示学习)的四大局限。接着介绍LLM在NLP领域的突破及其在用户画像任务中的研究缺口,最后概述本文的两阶段方法、核心贡献与论文结构,明确本文旨在通过LLM的推理与摘要能力,构建“少标注、可解释、跨领域适配”的用户画像框架。
2. 相关工作
2.1 推文摘要
传统推文摘要已从抽取式模型发展到基于预训练模型的深度神经网络,近年研究开始探索LLM的应用:部分工作通过半监督方法或指令微调提升摘要质量,但现有方法仍依赖领域本体或大规模标注数据,且难以直接迁移至用户画像任务。
2.2 用户画像
用户画像技术已从早期刻板印象模型演进为深度学习、图结构建模等复杂方法,LLM的介入推动其从“被动信息过滤”向“主动用户互动”转型。但现有LLM-based方法仍未解决可解释性与数据效率的平衡问题,本文通过“领域定义语句+双类型画像”填补这一空白。
3. 数据集(PersianPol6M)
本章详细介绍针对2024年伊朗总统选举的波斯政治推特数据集构建流程,分为四步: 1. 数据收集:采集3000名核心政治用户(三位候选人各1000人)的600万条推文及转发图,时间跨度为2023年3月至2024年3月; 2. 领域知识库构建:以维基数据(Wikidata)为种子,通过实体遍历(深度3)与伊朗政治相关页面补充,最终形成含698个节点、814条边、731份文档的波斯政治知识库; 3. 领域推文过滤:采用半监督标注策略,通过余弦距离计算推文与知识库片段的相关性,标签规则为: $ {. $ 其中(T)为推文嵌入,(C_i)为Top-k近邻知识库片段嵌入,经调参确定θ = 0.7、k = 10,该标注方法的政治数据精度达93%;随后用标注数据微调TookaBERT-Base分类器,宏F1值达97%; 4. 数据集精炼:过滤后得到170万条政治推文,数据集在候选人相关内容、推文长度等维度分布均衡,为后续画像任务提供高质量数据支撑。
4. 方法论
本章详解用户画像与评估的完整流程: 1. 数据采样:采用Louvain社区检测算法划分用户群体,从Top20%社区中随机抽取10%用户(共150人,约14万条推文)作为实验样本; 2. 领域定义语句生成:通过零样本提示让LLM生成500+政治立场声明,经去重与人工筛选得到15条核心声明(如“用户对国家经济状况持正面态度”),作为画像与评估的核心依据; 3. 推文池化:设计四种方法筛选代表性推文(随机选择、均值近邻选择、k-means分层抽样、迭代相似度剔除),最终为每个“用户-声明”对筛选80条相关推文; 4. 用户画像生成:通过提示词引导LLM基于池化推文生成两类画像:抽象式画像(对用户立场的自然语言总结)与抽取式画像(支撑该立场的原始推文集合),要求LLM仅基于直接证据,避免推理偏差; 5. 评估框架:构建含1500个“用户-声明”对的评估集(100用户×15声明),由两名标注员标注“真/假/无法回答”(Cohen’s kappa=0.63),采用零样本提示让LLM以画像为上下文完成立场判断,对比其与“用户完整历史”的判断结果,衡量画像信息保留度。
5. 实验
5.1 实验设置
- 对比方法:基线方法(随机选择、BM25检索、语义检索)、抽象式基线(Amazon Summarization、Amazon+RAG)、抽取式基线(语义自动编码器SemAE);
- 标准化设计:为保证公平性,所有方法的画像大小统一为“15条内容/用户”(与本文15条声明对应);
- 评估模型:GPT-4o-mini与Gemini Flash 1.5,核心指标为宏F1分数。
5.2 实验数据
评估任务覆盖15条波斯政治领域核心立场声明,涵盖政府表现、外交政策、选举参与等多个维度,确保评估的全面性。
6. 结果与讨论
6.1 方法性能对比
本文提出的抽象式与抽取式画像方法在两种评估模型上均显著优于所有基线,其中抽取式方法表现最佳(GPT-4o-mini评估宏F1=0.6668),较现有方法提升9.8%,且经McNemar检验证实结果具有统计显著性(p<0.05)。
6.2 抽取式vs.抽象式画像
- 抽取式画像优势:避免LLM的西方中心主义偏见,更好保留区域政治文化 nuances;不受长文本注意力限制,性能更稳定;
- 抽象式画像局限:受LLM推理偏差与上下文长度限制,易引入与用户真实立场不符的表述。
6.3 基线方法表现分析
- 随机选择在高质量池化数据上表现尚可,印证了池化方法的有效性;
- BM25等稀疏检索优于密集检索,因立场检测中关键词(如政治人物姓名)的精确匹配至关重要;
- Amazon系列方法因摘要过于简略(仅1-2段)表现不佳,凸显提示词设计对LLM画像质量的影响。
6.4 立场检测挑战
波斯语立场检测本身具有主观性(标注员Cohen’s kappa=0.63),即使GPT-4o在该任务上的准确率也仅74.8%,但由于所有方法面临相同评估局限,本文的方法对比仍具有鲁棒性。
7. 结论与未来工作
本文提出的LLM-based用户画像方法通过半监督过滤与领域定义语句,成功解决了传统方法的可迁移性、可解释性与数据效率问题,在政治领域的实验中验证了其有效性。未来工作将:(1)通过知识融合与偏见评估框架解决LLM偏差问题;(2)拓展画像在更多下游任务与领域(如文化、人格特质)的应用;(3)开发领域专用嵌入模型以提升过滤精度。