Predicting User Stances from Target-Agnostic Information using Large Language Models

Predicting User Stances from Target-Agnostic Information using Large Language Models

论文概览

本文假设大型语言模型(LLMs)可基于用户的目标无关社交媒体帖子预测其对特定目标的立场,通过设计两种零样本提示策略(使用GPT-4o)并对比传统机器学习模型,在Connected Behaviour(CB)数据集上开展实验,发现LLMs的立场预测性能优于传统模型,当提供足够数量的目标无关帖子时性能可接近基于目标相关帖子的立场检测水平,且性能受立场目标类型、预测策略和帖子数量影响,最终得出LLMs为新话题公众立场预测提供可行方法、需进一步探究其性能机制的结论。

核心问题

现有立场检测研究多聚焦于帖子级或基于目标相关帖子的用户级检测,而基于目标无关帖子(不明确提及立场目标)预测用户对未见过的新目标(新话题)的立场这一任务仍未得到充分研究;传统机器学习模型依赖大量目标特定或上下文特定信息,难以适配新目标和新场景,因此亟需一种灵活、通用的方法解决该用户级立场预测问题。

主要贡献

  1. 首次提供实证证据,证明LLMs可基于用户的目标无关帖子(不包含目标引用)实现用户级立场预测;
  2. 揭示零样本立场预测性能低于目标相关帖子的立场检测,但随着目标无关帖子数量增加,两者性能快速收敛;
  3. 识别出立场目标类型、预测策略和帖子数量三类因素对LLM-based立场预测性能的异质性影响;
  4. 提出LLMs可作为基于目标无关数据预测新话题公众立场的可行方法,为组织和政策制定者提供早期舆情评估工具,并呼吁进一步研究LLMs的性能机制。

研究方法

  1. 数据集:采用Connected Behaviour(CB)数据集,包含2020年4月-12月期间1000名Twitter用户的帖子,涵盖三个立场目标(2020年大选的特朗普、COVID-19口罩佩戴、种族平等),每个用户包含2-750条目标相关帖子(用于标注立场标签)和50-150条目标无关帖子(用于预测);
  2. 模型设计
    • LLM-based模型(GPT-4o,零样本):两种策略——ULSP-LLM(直接输入用户多条目标无关帖子,输出单一立场预测)、ULSP-LLM(pooled)(单帖输入得到帖子级预测,通过$\frac{1}{N}(\# Support - \# Against ) \geq 0$聚合为用户级预测);
    • 传统机器学习模型:基于TF-IDF和SBERT特征,训练逻辑回归、随机森林分类器(ULSP-nonLLM(pooled)),通过$Stance _{i}=\frac{1}{N} \sum_{j=1}^{N} P\left( Support | x_{i j}\right)$聚合帖子级预测(xij为用户i的第j条帖子,P(Support|xij)为支持类概率);
    • 基准模型:将LLM策略应用于目标相关帖子,实现传统立场检测,作为性能上限;
  3. 实验设计:1000名用户按5:5划分为训练集(仅用于传统模型训练)和测试集,采用5折分层组交叉验证(以用户为组)确定模型超参数,性能指标包括支持类F1、反对类F1、平衡准确率,通过阈值调优优化ULSP-LLM(pooled)性能,事后分析探究目标相关关键词和用户深层特征的作用。

章节详解

1. 引言

  • 立场定义:对特定信息或目标的态度、偏好和观点的显性表达,社交媒体已成为用户传递立场的核心场景;
  • 研究背景:现有立场检测多为帖子级或基于目标相关帖子,用户级且依赖目标无关帖子的研究不足;传统模型依赖目标特定信息,难以适配新话题(如突发政策)的立场预测需求;
  • 研究动机:新话题出现时目标相关帖子稀缺,而用户历史目标无关帖子可能蕴含其信念、价值观等信息,LLMs的预训练优势或可解决传统模型的局限性;
  • 研究目标:探究LLMs基于目标无关帖子预测用户对新目标立场的有效性。

2. 相关工作

  • 交叉目标立场检测:需利用已有目标数据训练模型并适配新目标,但依赖目标相关上下文或外部知识,聚焦帖子级任务;
  • 用户表示建模:通过用户文本、社交关系等生成向量表示用于立场分类,但需大量标注数据,部分无监督方法未利用LLM的上下文理解能力;
  • LLM在立场任务中的应用:LLMs在零样本立场检测中表现优异,但尚未系统探究其在用户级、目标无关场景下的性能;
  • 本文差异:聚焦用户级立场预测,基于目标无关帖子,无需标注数据(零样本),对比LLM与传统模型的性能差异及影响因素。

3. 用户级立场数据集(CB数据集)

  • 数据集特点:唯一同时包含多目标、用户级立场标签、目标相关和目标无关帖子的Twitter数据集;
  • 目标定义:三个美国热门话题——2020大选特朗普、COVID-19口罩佩戴、种族平等(如“黑人的命也是命”运动);
  • 帖子分类:
    • 目标相关帖子:明确提及目标(含预设关键词/话题标签),用于通过远程监督(基于话题标签)标注用户立场(支持/反对);
    • 目标无关帖子:不包含目标关键词/标签,可能与目标概念相关(如涉及保守/自由价值观)或完全无关,每个用户50-150条;
  • 数据分布:1000名用户,训练集和测试集各500人,各目标的支持/反对用户比例存在差异(如特朗普相关用户中反对者占比更高)。

4. 用户级立场预测模型

4.1 LLM-based模型(零样本)

  • 提示词模板:固定格式输入用户帖子,要求模型在帖子可能不提及目标的情况下,预测用户支持/反对立场,仅输出二选一结果;
  • 两种策略:
    • ULSP-LLM:一次性输入用户多条目标无关帖子,直接输出用户级立场;
    • ULSP-LLM(pooled):单帖逐一输入,获取每条帖子的立场预测,统计支持/反对次数,取多数类作为用户立场(忽略无效预测)。

4.2 传统机器学习模型

  • 特征提取:将每条帖子转换为TF-IDF特征向量(词频-逆文档频率)和SBERT句子嵌入向量;
  • 模型训练:基于上述特征训练逻辑回归和随机森林分类器,通过5折交叉验证优化超参数(逻辑回归正则化参数、随机森林最大深度);
  • 预测聚合:通过公式$Stance _{i}=\frac{1}{N} \sum_{j=1}^{N} P\left( Support | x_{i j}\right)$计算用户立场得分,设定目标特定阈值Ttarget(最大化训练集平衡准确率),得分≥阈值则预测为支持,否则为反对。

4.3 立场检测基准

  • 实现方式:将ULSP-LLM策略应用于用户的目标相关帖子,开展传统立场检测;
  • 作用:作为性能上限,用于对比目标无关帖子立场预测的性能差距。

5. 实验与结果

5.1 实验设置

  • 数据划分:训练集500用户(25,000条目标无关帖子),测试集500用户(25,000条目标无关帖子);
  • 评估指标:支持类F1、反对类F1、平衡准确率(避免类别不平衡影响)。

5.2 主要性能结果

  • LLM优势:ULSP-LLM在所有目标和指标上均优于传统模型,ULSP-LLM(pooled)除“特朗普”目标外,性能也优于传统模型;
  • 目标异质性:“特朗普”目标的预测准确率最高,其次是“种族平等”,“口罩佩戴”最低,反映不同目标的立场相关线索易提取程度差异;
  • 帖子数量影响:随着目标无关帖子数量增加,所有模型的平衡准确率均提升,ULSP-LLM在10-20条帖子时性能接近立场检测基准(目标相关帖子)。

5.3 ULSP-LLM(pooled)的阈值调优

  • 问题:单帖预测存在噪声,直接多数投票可能引入偏差(如“特朗普”目标的原始预测存在系统偏差);
  • 方法:基于训练集优化聚合阈值,替代原始的$\frac{1}{N}(\# Support - \# Against ) \geq 0$
  • 结果:“特朗普”目标性能显著提升,其他目标提升微弱,验证了单帖预测噪声的影响,但调优后仍不及ULSP-LLM(多帖同时输入可利用上下文缓解歧义)。

5.4 目标无关帖子的相关性分析

  • 目标相关关键词:TF-IDF特征与立场类别的相关性分析显示,目标无关帖子中存在与立场目标概念相关的关键词(如“民主党”与特朗普立场相关);
  • 用户深层特征:通过扩展道德基础词典(eMFD)提取用户道德价值观,发现“种族平等”的支持者在“关怀恶行”“忠诚恶行”“公平恶行”上得分更低(更少表达残忍、背叛、不公相关内容),证明LLMs可捕捉用户深层信念用于立场预测。

6. 结论

  • 核心发现:LLMs能基于足够数量的目标无关帖子,实现与目标相关帖子立场检测相当的用户级立场预测,且性能优于传统机器学习模型;
  • 关键影响因素:立场目标类型、LLM预测策略、目标无关帖子数量均会显著影响预测性能;
  • 理论与实践意义:为新话题(无目标相关数据)的公众立场早期评估提供可行方法,助力组织和政策制定者快速响应舆情;
  • 研究局限:未明确帖子数量增加导致性能提升的核心原因(信息累积vs诊断性帖子增多),需进一步探究LLM的预测机制。

7. 局限性与未来工作

  • 局限性:数据集单一(仅CB数据集)、LLM提示策略简单、仅测试GPT-4o一种模型;
  • 未来方向:拓展多数据集验证、设计更复杂的提示策略(如思维链提示)、补充目标上下文信息、对比不同LLM的性能差异、深入解析LLM的立场预测机制。