SOLAR: Towards Characterizing Subjectivity of Individuals through Modeling Value Conflicts and Trade-offs
EMNLP # SOLAR: Towards Characterizing Subjectivity of Individuals through Modeling Value Conflicts and Trade-offs ## 论文概览 本文假设个体的主观基础(影响道德判断的核心原则)可通过其过往文本中的价值冲突与权衡来表征,提出了融合价值抽象与检索增强生成(RAG)的SOLAR框架,通过分析Reddit社区r/AmITheAsshole的用户评论数据,实现对个体道德判断的预测;实验结果表明,该框架在整体性能上优于传统微调模型,尤其在低资源用户(数据量有限)和道德争议场景中提升显著,且能解释个体的价值偏好,最终证实现成大型语言模型(LLMs)可有效刻画真实场景中的个体层面主观性。
核心问题
- 现有LLM在主观性建模中多侧重群体层面(如人口统计学特征、通用角色),缺乏对个体层面主观性的深入探索,难以捕捉个体独特的价值偏好与判断逻辑。
- 引导LLM生成与特定个体主观视角一致的内容存在挑战,现有方法易依赖表面特征而非深层理解。
- 个体层面主观性的概念化与操作化难度大(即使同一群体的个体仍可能有不同主观偏好),且传统模型在低资源用户场景和争议性情境中表现不佳。
主要贡献
- 首次尝试使用现成LLMs有效刻画真实在线社区(r/AmITheAsshole)中的个体层面主观性,突破了现有研究对群体层面的局限。
- 提出SOLAR框架,通过价值抽象(将用户评论映射为高阶价值表征)和RAG技术,实现对个体主观基础的建模,同时解决了低资源和争议场景下的性能瓶颈。
- 验证了价值权衡理论在个体主观性分析中的有效性,通过可视化展示了个体独特的价值偏好模式,为LLM的预测结果提供了可解释性。
- 构建并公开了包含1.7K独特情境、100位用户、53K实例的数据集,为后续个体主观性研究提供支持。
研究方法
- 数据集构建:爬取Reddit社区r/AmITheAsshole 2014年11月至2023年6月的帖子,筛选后保留1.7K独特情境和100位活跃用户的评论,将用户判断标注为“可接受”(NTA/NAH/YWNBTA)和“不可接受”(YTA/ESH/YWBTA)二分类标签,丢弃无主观性的INFO标签。
- 价值抽象方法:
- 自上而下:基于Schwartz的十种基本人类价值观(如自我导向、 benevolence、安全等)对情境和评论进行标注。
- 自下而上:通过LLM(GPT-4o-0806)识别情境中的价值冲突对,分析用户评论中的价值权衡,并通过HDBSCAN和K-means聚类生成高阶价值表征。
- 模型框架(SOLAR):
- 主观基础检索:设计两种检索策略,情境检索(基于欧氏距离匹配相似情境)和价值检索(基于高阶价值匹配相关案例),检索函数分别为: $$R(u_i, x)=\underset{s_j \in \mathcal{D}_i}{top-k} dist(x, s_j)^{-1}$$(dist(x, sj) = ∥x − sj∥2,情境检索) $$R_{val}(u_i, x^\mathcal{V})=\underset{s_j^v \in \mathcal{D}_i}{top-k} dist(x^\mathcal{V}, s_j^\mathcal{V})^{-1}$$(价值检索)
- LLM提示:将检索到的top-k案例(含情境、评论、判断、价值信息)作为少样本示例,输入GPT-4.1预测用户对新情境的判断;对争议情境(用户共识<70%)采用价值检索,非争议情境采用情境检索。
- 实验设计:
- 基线模型:对比编码器-only(DistilBERT、RoBERTa、DeBERTa-v3)、编码器-解码器(BART、FLAN-T5)及Seq2Seq变体,均为针对每个用户单独微调。
- 评估指标:宏F1分数(平衡标签分布不均影响,对每个用户单独计算后取平均)。
论文各章节详解
1. 引言(Introduction)
- 背景:LLM在客观复杂推理(如STEM问题)和主观决策任务(如毒性检测、伦理遵循)中均表现出色,但现有研究多聚焦群体层面的主观性(如人口统计学特征、角色),依赖表面信息而非深层理解。
- 研究目标:探索LLM刻画个体层面主观性的可行性,解决“引导LLM与个体主观视角一致”和“个体层面主观性操作化”两大挑战。
- 研究场景:选择Reddit社区r/AmITheAsshole,该社区用户围绕冲突情境发表道德判断,便于捕捉个体主观偏好。
- 核心思路:基于价值多元论(个体通过权衡冲突价值做出判断),提出SOLAR框架,结合RAG和价值抽象建模个体主观基础。
2. 问题表述(Problem Formulation)
定义四个核心要素,为后续研究奠定理论基础: - 情境(Situation):真实世界中包含冲突的文本描述(如“要求女友为扑克之夜离开公寓”),可映射不同主观视角。 - 个体(Individual):分析对象(Reddit用户),核心是捕捉其独特的判断模式及背后的逻辑。 - 主观基础(Subjective Ground):指导个体道德判断的原则(如“应将伴侣需求置于优先地位”),由过往经验、性格等因素构成,可通过历史行为推断。 - 价值抽象(Value Abstraction):将个体历史评论映射为高阶价值表征的过程,解决“历史行为无法覆盖所有情境”的现实问题,实现跨情境泛化。
3. 任务描述(Task Description)
- 任务定义:二分类任务——给定情境和用户历史数据,预测用户是否认为情境中主角的行为“可接受”。
- 数据集细节:筛选后含53,280个实例、17,432个独特情境、100位用户,用户实例数范围148-2,870,标签分布整体为“可接受”38,365个、“不可接受”14,915个。
- 价值标注:
- 自上而下:基于Schwartz的十种基本价值观,通过LLM标注情境和评论中的核心价值。
- 自下而上:通过LLM识别情境中的价值冲突对,分析用户评论中的价值权衡,再通过聚类生成111个高阶价值簇,实现更细粒度的价值表征。
- 学习问题:LLM作为推理代理,利用个体主观基础(历史评论或价值偏好)预测未见过情境的判断结果。
4. 模型(Model)
详细阐述SOLAR框架的核心组件: - 数据定义:设用户集合U = {u1, u2, ..., un},情境集合S = {s1, s2, ..., sN},用户ui对情境sj的评论为cij、判断为yij ∈ {0, 1},通过嵌入模型fembed将情境、评论、价值转化为向量。 - 主观基础检索:为每个用户维护历史数据集Di = {(sj, sjV, cij, cijV, yij)},基于情境或价值向量检索top-k相似实例,分别对应情境检索和价值检索策略。 - LLM提示:将检索到的实例作为少样本示例(含情境、评论、判断、价值信息),输入GPT-4.1进行判断预测,LLM无需微调,仅基于给定的个体历史数据推理。
5. 实验(Experiments)
- 基线模型结果:传统微调模型(如RoBERTa-base)在高资源用户(评论数>1000)上宏F1达70.48,但在所有用户上仅46.68,低资源用户和判断模式倾斜的用户表现极差,且模型越复杂(如Seq2Seq)性能越差,验证了数据稀缺对微调方法的制约。
- RAG-based模型结果:
- SOLAR框架整体宏F1达79.90,争议情境中达82.44,低资源用户(后50%)达80.99,显著优于基线模型。
- 价值抽象的作用:加入价值权衡信息后,低资源用户性能提升2.69%;争议情境中,基于价值的检索策略比情境检索更有效,证实高阶价值能捕捉跨情境的主观一致性。
- 检索策略有效性:SOLAR的集成检索(争议情境用价值检索,非争议用情境检索)实现最优性能,兼顾了不同场景的需求。
6. 讨论(Discussion)
- 性能分析:微调模型依赖数据量和判断平衡性,而RAG-based模型不受此限制,因无需学习个体模式,仅通过检索相关历史实例辅助LLM推理。
- 个体价值权衡差异:通过热图可视化8位活跃用户的价值权衡模式,发现存在共性(如多数用户优先“个人自主”于“育儿决策”),但更多是独特性(如用户8在“个人自主”与“权威服从”冲突时倾向后者,而用户1则相反),证实个体主观性的独特性。
- 价值抽象的优势:LLM生成的高阶价值可覆盖Schwartz价值观的多个维度,甚至包含冲突的Schwartz价值观,比固定价值体系更灵活,能提供更丰富的上下文信息。
7. 相关研究(Related Studies)
- 个体主观性分析:现有研究多聚焦群体特征或使用LLM作为代理个体,本文首次基于真实用户数据刻画个体主观性,且提供价值权衡解释。
- 价值理论与LLM结合:现有研究多采用固定价值体系或代理个体,本文通过自下而上的价值聚类实现更细粒度的个体价值表征。
- 检索增强生成(RAG):现有RAG多应用于事实性任务(如QA、摘要),本文将其扩展到主观性刻画,通过个体历史数据增强LLM的个性化推理能力。
8. 结论与局限性(Conclusion & Limitations)
- 结论:SOLAR框架通过价值抽象和RAG技术,实现了现成LLM对个体主观性的有效刻画,在低资源和争议场景中表现突出,且能提供价值偏好解释。
- 局限性:
- 主观性定义简化:仅基于单一社区的评论,未涵盖个体其他维度信息(如其他社区参与情况)。
- 时间一致性假设:假设个体价值偏好不随时间变化,未来需分析价值动态变化。
- 数据集局限性:仅基于r/AmITheAsshole社区,需扩展到其他场景验证通用性。
- 价值有效性验证:LLM生成的价值缺乏人类评估,未来需通过人工验证提升价值表征的可靠性。