SocialSim: Towards Socialized Simulation of Emotional Support Conversation
SocialSim: Towards Socialized Simulation of Emotional Support Conversation
论文概览
本文假设现有情感支持对话(ESC)合成方法因忽略社交动态(求助者社会披露不足、支持者社会认知欠缺)导致效果不佳,提出整合“求助者社会披露”与“支持者社会认知”的SocialSim框架,通过构建详细角色库和认知推理链生成高质量合成语料SSConv,基于该语料训练的聊天机器人在自动和人工评估中均达到最优性能,最终证实SocialSim能规模化合成贴近真实的ESC,降低情感关怀获取门槛。
核心问题
- 众包构建ESC语料成本高,导致对话数量少、主题多样性不足,难以支撑模型训练;
- 现有LLM辅助的ESC语料合成方法忽视ESC的社交本质,存在两大缺陷:一是求助者侧社会披露不足(仅提供简单场景描述,缺乏个性化信息),二是支持者侧社会认知欠缺(仅模仿表层回复模式,无深层认知推理),导致合成对话真实性、相关性和有效性不足。
主要贡献
- 提出SocialSim框架,首次将社交动态(社会披露与社会认知)融入ESC模拟,填补现有合成方法的社交属性空白;
- 构建SSConv高质量合成语料,包含3229个对话,经人工评估证实其在信息量、理解度、帮助性等维度优于众包语料(如ESConv)和其他合成语料(如AugESC);
- 基于SSConv训练的聊天机器人在自动评估(BLEU、ROUGE-L等)和人工评估(流畅度、问题识别、安慰效果等)中均实现SOTA性能,验证了框架和语料的有效性。
研究方法
- 角色真实化(Persona Realism):从PsyQA心理支持数据集筛选3229个真实求助场景,基于大五人格模型(Big Five Model)构建结构化角色库,包含性别、年龄、职业等11类属性,保障求助者社会披露的真实性和多样性;
- 认知推理(Cognitive Reasoning):设计四节点推理链(Situation→Thought→Action→Strategy),模拟人类支持者的思考过程,提升支持者对求助者情绪和场景的理解深度;
- 对话生成:以ESConv高质量对话为示范,结合角色库和推理链提示GPT-4生成对话,严格遵循“求助者贴合角色”“支持者先推理后回复”规则,经人工校验确保质量;
- 模型训练与评估:以Llama-2-7b为骨干模型,采用LoRA微调方法在不同语料上训练,通过自动评估(语义相似度、多样性等指标)和人工评估(6项质量维度+5项交互维度)验证性能。
各章节详解
1. 引言(Introduction)
- 背景:ESC旨在通过对话提供情感慰藉,广泛应用于心理咨询、在线心理健康服务等领域,但众包语料受成本限制,LLM合成方法缺乏社交动态;
- 问题提出:现有合成方法存在“求助者社会披露不足”和“支持者社会认知欠缺”两大痛点,导致合成对话与真实ESC存在差距;
- 研究目标:提出SocialSim框架,通过角色真实化和认知推理,实现社交化的ESC模拟,构建高质量合成语料并训练高性能聊天机器人。
2. SocialSim:社交化模拟框架(SocialSim: Socialized Simulation Framework)
框架分为三大核心模块,实现端到端的ESC合成:
- 求助者侧:角色真实化构建详细角色库,包含11类属性(性别、年龄、职业、人格等),基于PsyQA场景和大五人格模型生成3229个真实角色,保障社会披露的丰富性;
- 支持者侧:认知推理链引入四节点逻辑(Situation:捕捉求助者情绪与场景;Thought:还原求助者内心认知;Action:预判求助者行为倾向;Strategy:确定支持策略),模拟人类支持者的思考过程;
- 对话生成:以“角色+推理链→对话”为范式,提示GPT-4生成符合Hill帮助理论(Exploration→Comforting→Action)的对话,确保支持策略的合理性和对话的连贯性。
3. SSConv:社交化模拟ESC语料(SSConv: Socially Simulated ESC Corpus)
- 语料统计:含3229个对话,共77336轮 utterance,平均每轮对话24轮,utterance平均长度20.5词,覆盖9大主题、102个子主题(远超现有语料);
- 质量评估:人工评估中,SSConv在信息量(2.76)、理解度(2.86)、帮助性(2.79)、安全性(3.00)等6项指标均排名第一,安全性实现满分;
- 主题与策略:主题涵盖家庭、人际关系、自我成长等生活核心场景,支持策略分布符合真实ESC规律(先探索问题→再安慰→最后提供行动建议),策略转换逻辑连贯;
- 个性化验证:通过词重叠率和嵌入相似度验证,对话内容与求助者角色高度相关,支持者回复能精准贴合求助者具体情况。
4. 实验(Experiments)
- 实验设置:对比语料(ESConv、AugESC、ExTES),骨干模型Llama-2-7b,训练配置(LoRA微调、学习率5e-5、训练5轮),评估分为自动评估和人工评估;
- 自动评估结果:在SSConv-test数据集上,SSConv微调模型(SSConv◦)的归一化平均指标(NAvg)达1.338,增强版(SSConv•,融入推理链训练)达1.390,显著优于基线模型(p<0.05);在ESConv-test数据集上,各模型性能相当,证明合成语料不损害域内任务表现;
- 人工评估结果:SSConv•模型在流畅度(2.85)、问题识别(2.65)、安慰效果(2.53)等5项指标均排名第一,整体得分2.69,远超ESConv微调模型(1.35);
- 消融研究:四节点推理链缺一不可,移除中间节点(尤其是Thought)会导致性能显著下降,证明认知推理链的完整性对ESC质量至关重要。
5. 相关工作(Related Work)
- ESC研究现状:现有工作分为“数据集构建”(如ESConv众包语料)和“模型优化”(注入常识知识、引入角色信息等),但均受限于低质量或小规模语料;
- 语料合成研究:AugESC、ExTES等基于LLM的合成方法仅依赖简单场景或回复模式,未融入社交动态;
- 本文创新点:通过角色真实化和认知推理,首次实现社交化ESC模拟,构建的语料兼具规模与质量。
6. 结论(Conclusion)
- 总结:SocialSim框架通过整合社交披露与社交认知,有效解决了现有ESC合成方法的核心缺陷;
- 成果:SSConv语料质量超现有数据集,基于其训练的聊天机器人实现SOTA性能;
- 意义:为ESC提供了规模化、低成本的合成方案,推动情感支持服务更广泛普及。