iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News

iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News

论文概览

本文假设个体特征会显著影响对新闻的个性化情感反应,通过构建多模态数据集iNews(含291名UK多样化标注者对2899条Facebook新闻的情感标注及个人特征信息),结合回归分析和LLM预测实验,发现标注者特征可解释15.2%的情感标注差异,融入该信息能使LLM在零样本场景下情感预测准确率提升最高7%,少样本场景下仍有增益,最终证实iNews数据集可为个性化情感计算、LLM个性化等研究提供关键支持。

核心问题

现有NLP情感检测数据集多依赖聚合“黄金标签”,忽略个体差异(如人口统计学、人格、媒体消费习惯等)对情感反应的影响,导致模型难以捕捉个性化情感表达,无法满足新闻情感反应等场景下的个性化建模需求。

主要贡献

  1. 构建了大规模多模态数据集iNews,涵盖丰富情感标注(效价-唤醒-优势度VAD、离散情绪、相关性等)和标注者个人特征(人口统计学、人格、媒体信任度等),填补现有数据集空白。
  2. 量化验证了个体特征对新闻情感反应的显著影响,其解释的标注方差(15.2%)高于现有NLP数据集。
  3. 实证表明融入个体特征可稳定提升LLM的个性化情感预测性能,零样本和32-shot少样本场景下均有效。
  4. 揭示了模态差异(图像零样本更优、文本少样本缩放性更好)和少样本“早期上升现象”(4-shot性能低于零样本,后续随样本量提升恢复)等关键发现。

研究方法

  1. 数据收集:分3个阶段(2024年英大选前后、巴黎奥运会前)采集UK主流媒体Facebook新闻,采用配额抽样招募291名地理/人口统计学多样化标注者,通过“个人特征调查+新闻情感标注”两阶段流程收集数据,配套 instruction学习、理解测试、注意力检查、校准项验证等质量控制措施。
  2. 分析方法:采用线性混合效应模型,构建空模型、人格模型、用户模型三类回归模型,量化个体特征对情感唤醒度的解释力。
  3. 实验方法:选取7个前沿LLM(含Gemini 1.5 Pro、GPT-4o等多模态模型和Llama系列语言模型),在零样本和少样本(4/8/16/32-shot)场景下,对比文本、图像、文本+人格、图像+人格四种输入条件,通过MAE、精确准确率、±1准确率三个指标评估模型个性化情感预测能力。

各章节详解

1. 摘要与引言

  • 摘要:明确研究目标是解决现有数据集忽略个体差异的问题,介绍iNews数据集的规模(291标注者、2899新闻帖)、标注维度(VAD、离散情绪等)和个人特征覆盖范围,核心发现(个体特征解释15.2%方差、提升LLM预测性能)及数据集应用场景。
  • 引言:阐述个体差异对行为反应的重要性,指出NLP领域聚合标签的局限性;说明新闻情感反应作为个性化建模测试床的优势(可观测、个体差异明确、现实相关性强);概述iNews数据集的核心构成和价值。

2. 相关工作

  • 新闻、情绪与个体差异:现有研究多关注新闻内容的情绪基调而非读者个性化反应,且依赖聚合分析,忽略个体差异的影响。
  • NLP中的情绪检测:现有数据集缺乏个体差异变量、细粒度情感标注与真实新闻内容的结合,少数含标注者背景信息的数据集存在维度单一、场景局限等问题。

3. 数据集收集协议

  • 采样策略:分三阶段采集Facebook新闻帖(覆盖大选和奥运会场景),Phase1随机采样,Phase2-3按媒体粉丝数分层采样,确保生态有效性。
  • 标注者招募:通过Prolific平台配额抽样,平衡性别、年龄、政治倾向、地理区域,291名标注者每人标注约50条新闻,按UK最低工资标准补偿。
  • 数据收集两阶段:Stage1(个人特征调查)采集人口统计学、意识形态、新闻消费习惯、认知特质、人格(BFI-10)、情绪特征(PERS、PANAS)五类变量;Stage2(情感标注)采用SAM量表和Ekman基础情绪分类,收集VAD评分、离散情绪、模态影响、相关性、分享意愿。
  • 质量控制:含instruction最低学习时间、理解测试、注意力检查、ANET校准项验证,标注者VAD评分与ANET标准高度一致(均值差异<0.5)。

4. 描述性分析

  • 数据规模:2899条新闻帖,平均每条5.18个标注,标注者覆盖UK 97/124邮区,人口统计学和意识形态多样化。
  • 标注分布:VAD评分中中性值(4)最常见,效价偏负、唤醒度偏高、优势度偏负;离散情绪以“中性”和“悲伤”为主;近半数标注认为新闻“完全不相关”,54.5%标注“极不可能分享”。
  • 媒体与话题分析:所有媒体内容平均效价偏负、唤醒度高于中性;话题分布以艺术/文化/娱乐(25.4%)、犯罪/法律/正义(12.9%)、政治(9.6%)为主,冲突/战争、灾难类话题唤醒度最高。
  • 标注者一致性:Krippendorff’s α 显示效价一致性中等(α = 0.468),唤醒度(α = 0.145)和优势度(α = 0.203)一致性较低,印证情感反应的主观性。

5. 回归分析

  • 模型设计:构建三类线性混合效应模型,对比新闻文本(随机效应)、个体特征(47个固定效应)、用户ID(随机效应)对唤醒度评分的解释力。
  • 核心结果:空模型(仅文本)条件R2 = 0.131,融入个体特征后人格模型的条件R2提升至0.286(边际R2 = 0.152),用户模型(文本+用户ID)R2 = 0.317,表明个体特征可显著解释情感反应差异,且存在未被捕捉的潜在个体因素。

6. 标注后问卷的定性分析

  • 研究设计:对20名标注者进行开放式问卷调研,探究个体差异对新闻情感反应的影响机制。
  • 核心发现:标注者的成长经历、社会阶层、媒体信任度会影响情感反应;图像和内容相关性是情感强度的关键触发因素;标注者普遍认可情感反应的个体差异性,对社交媒体新闻存在信任偏见。

7. 预测个体情感唤醒

  • 实验设置:选取30名标注者的579条标注作为测试集,7个LLM参与实验,对比四种输入条件和不同少样本量(4/8/16/32-shot)。
  • 零样本结果:融入个体特征显著提升模型性能(Gemini 1.5 Pro图像+人格条件最优,MAE=0.841,±1准确率=82.04%);图像输入整体优于文本输入;不同模型对人格提示的敏感性存在差异。
  • 少样本结果:存在“早期上升现象”,4-shot性能低于零样本,后续随样本量增加恢复并提升;32-shot时文本+人格条件准确率达44.4%;个体特征在少样本场景下仍能提供增益;图像输入少样本缩放性差于文本。

8. 结论

总结iNews数据集的核心价值(捕捉个性化情感反应、量化个体特征影响)、关键实验发现(模态差异、少样本现象),强调数据集对情感计算、LLM个性化、人类行为模拟等领域的推动作用。

9. 局限性

  • 样本范围:标注者和新闻来源聚焦UK,缺乏全球代表性;未涵盖所有人口统计学群体。
  • 方法学:依赖自我报告的情感测量,可能存在社会期望偏差;未结合生理指标等多维度验证。
  • 平台覆盖:仅采集Facebook新闻,未涉及其他社交媒体平台。
  • 数据质量:无法完全排除AI生成标注的可能性,大规模标注中注意力一致性难以完全保证。

10. 伦理考量

  • 获得机构伦理审查批准,标注者签署知情同意书,按UK最低工资补偿。
  • 不收集个人可识别信息,公开数据集采用匿名ID,引用开放式问卷回复时进行转述以保护隐私。
  • 通过配额抽样确保标注者多样性,详细记录人口统计学信息,便于后续研究考虑潜在偏差。