iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News
iNews: A Multimodal Dataset for Modeling Personalized Affective Responses to News
论文概览
本文假设个体特征(人口统计学、人格、媒体使用习惯等)会显著影响对新闻的个性化情感反应,现有数据集缺乏此类细粒度信息,因此通过构建多模态数据集iNews、结合回归分析与LLM预测实验,发现个人特征可解释15.2%的情感标注方差,融入该信息能使LLM零样本情感预测准确率提升7%,32样本场景下仍有增益且图像输入零样本表现优于文本但少样本缩放性不足,最终结论为iNews数据集为个性化情感计算、LLM个性化等研究提供了关键支撑。
核心问题
现有NLP情感检测数据集多依赖聚合“黄金标签”,忽略个体差异对情感反应的影响,无法建模新闻消费场景中真实存在的个性化情感响应;同时缺乏结合全面个体特征、细粒度情感标注与真实新闻内容的数据集,难以支撑LLM个性化、情感计算等领域的研究需求。
主要贡献
- 构建了大规模多模态数据集iNews,包含291名人口统计学多样化的UK参与者对2899条UK主流媒体Facebook新闻的标注,涵盖VAD维度、离散情绪、模态影响等多维度情感响应及丰富个人特征信息。
- 实证验证个人特征对新闻情感反应的强解释力,其解释的标注方差(15.2%)高于现有NLP数据集。
- 证明融入个人特征可稳定提升LLM的个性化情感预测性能,零样本场景准确率提升达7%,且与少样本示例提供的信号具有互补性。
- 发现模态差异规律:图像输入在零样本预测中优于文本,但少样本场景下表现出更显著的初始性能下降和更慢的恢复速度,同时观察到少样本学习中的“早期上升现象”。
研究方法
- 数据收集:分三阶段(2024年英大选前后、巴黎奥运会前)采集Facebook新闻,采用随机抽样与分层抽样结合的方式确保生态有效性;通过配额抽样招募291名标注者,完成“个人特征调查+新闻情感标注”两阶段任务。
- 标注设计:包含VAD(效价、唤醒度、优势度)1-7分量表评分、Ekman基本情绪分类、模态影响评估、个人相关性与分享意愿评级。
- 质量控制:设置指导语最低阅读时长、任务理解测试、注意力检查题,采用ANET标准化句子进行校准,验证标注一致性。
- 分析方法:构建线性混合效应模型量化个人特征的方差解释力;基于7个前沿LLM(含多模态与纯语言模型),设计4种输入条件(文本/图像±个人特征),开展零样本与$k \in {4,8,16,32}$少样本预测实验,采用MAE、精确准确率、±1准确率作为评估指标。
- 定性分析:对20名标注者的开放式问卷进行主题分析,补充个体情感反应的深层机制。
各章节详解
1. 引言
阐述个体特征对刺激响应的塑造作用已被社会科学证实,但NLP领域多依赖聚合标签忽略该差异;新闻情感响应是建模个体行为的理想场景(测量框架成熟、个体差异明确、贴近现实),因此提出构建iNews数据集,以支撑LLM个性化、情感计算等领域研究,同时概述数据集的核心构成与关键发现。
2. 相关工作
- 新闻、情感与个体差异:现有研究多关注新闻内容的情感基调而非读者个性化反应,且以聚合分析为主,忽略个体异质性。
- NLP情感检测:现有数据集缺乏个体背景信息与细粒度情感标注,少数包含人口统计学数据的研究未覆盖多维度情感与真实新闻场景,无法满足个性化建模需求。
3. 数据集收集协议
- 抽样策略:分三阶段采集Facebook新闻,Phase1随机抽样,Phase2-3按媒体粉丝数分层抽样,确保样本反映真实新闻接触场景;以新闻截图形式呈现(含图像、标题、互动数据),避免评论干扰。
- 标注者招募:通过Prolific平台配额抽样,覆盖性别、年龄、政治倾向、UK地理区域等维度,291名标注者每人完成约50条新闻标注,按UK最低工资标准给予报酬(£8.58/人)。
- 两阶段任务:Stage1通过问卷收集5类个人特征(人口统计学与意识形态、新闻消费与信任、认知特质、人格特质、情绪特征);Stage2采用Potato工具进行多维度情感标注,随机打乱新闻顺序。
- 质量控制:标注者需完成指导语学习(最低2分钟)、理解测试、注意力检查,通过ANET标准化句子校准标注一致性,结果显示标注与ANET norms高度吻合(均值差异<0.5)。
4. 描述性分析
- 数据分布:VAD评分中中性值(4)最常见,效价偏负、唤醒度偏高、优势度偏负;离散情绪以“中性”“悲伤”“快乐”为主,相关性标注中44%为“完全不相关”,54.5%的分享意愿为“极不可能”。
- 标注者特征:覆盖UK 97/124邮政编码区域,性别、年龄、收入、教育水平、政治倾向分布多样化。
- 媒体与主题分析:所有媒体内容平均效价偏负、唤醒度高于中性;最常见新闻主题为艺术/文化/娱乐(25.4%)、犯罪/法律/正义(12.9%)、政治(9.6%);冲突/战争、灾难/事故主题唤醒度最高(均>4.7)。
- 标注一致性:Krippendorff’s $\alpha$ 显示效价一致性中等($\alpha=0.468$),唤醒度($\alpha=0.145$)与优势度($\alpha=0.203$)一致性较低,符合情感标注的主观性特征。
5. 回归分析
- 模型设计:构建三类线性混合效应模型——Null模型(仅新闻文本为随机效应)、Persona模型(加入47个个人特征固定效应)、User模型(新闻文本+用户ID为随机效应),以唤醒度为因变量。
- 关键结果:Null模型仅解释13.1%的方差,Persona模型将总解释方差提升至28.6%(边际$R^2=0.152$),User模型进一步提升至31.7%,表明个人特征能有效捕捉个体差异,但仍存在未观测到的个体因素影响情感反应。
6. 定性分析(标注后问卷)
通过对20名标注者的开放式问卷主题分析,发现:个人背景(如冷战成长经历、工人阶级背景)塑造情感反应阈值;伤害/弱势群体相关新闻、视觉图像是强情感触发因素;标注者普遍意识到自身反应与“公众”存在差异,且对社交媒体新闻存在天然不信任;个人背景、新闻内容、来源可信度、呈现方式等因素交互影响情感响应。
7. 预测个体情感唤醒
- 实验设置:选取30名标注者的579条样本,7个前沿模型(含Gemini 1.5 Pro、GPT-4o等多模态模型与纯语言模型),4种输入条件(文本/图像±个人特征),评估MAE、精确准确率、±1准确率。
- 零样本结果:模型±1准确率超70%但精确准确率<40%;融入个人特征显著降低MAE(Gemini 1.5 Pro文本输入降低11.6%);图像输入整体优于文本(Gemini 1.5 Pro图像+ persona条件MAE=0.841,±1准确率=82.04%);不同模型对个人特征的响应性存在差异。
- 少样本结果:观察到“早期上升现象”——4样本场景性能低于零样本,随样本量增加逐渐恢复;32样本时文本输入精确准确率达44.4%、图像输入达42.8%;个人特征在各少样本阶段均有增益,验证其与示例信号的互补性;图像输入少样本缩放性弱于文本。
8. 结论
总结iNews数据集的核心价值,强调其在个性化情感计算、LLM个性化、人类行为模拟等领域的应用前景;重申个人特征对情感反应的重要性及模态差异规律,为相关研究提供数据支撑与实证参考。
9. 局限性
- 标注者样本虽具多样性,但未完全代表UK人口或Facebook用户,且聚焦UK场景,缺乏全球通用性。
- 情感测量依赖自我报告,可能受社会期望偏差影响,未结合生理指标等客观测量方式。
- 数据仅来自Facebook平台,未覆盖其他社交媒体,存在平台特异性局限。
- 无法完全排除AI生成标注的可能性,虽经多重质量控制仍可能存在注意力波动。
10. 伦理考量
研究经机构伦理委员会批准,标注者签署知情同意书并获得符合UK最低工资标准的报酬;未收集个人可识别信息,公开数据集采用匿名ID;通过配额抽样确保标注者多样性,详细记录人口统计学特征以便后续研究控制偏差。