Psychological Steering in LLMs: An Evaluation of Effectiveness and Trustworthiness

Psychological Steering in LLMs: An Evaluation of Effectiveness and Trustworthiness

NOTE

引导模型形成特定人格可能会有副作用

论文概览

本文假设LLM的模拟情绪状态和人格特质可通过多种技术引导调控,且需系统评估引导的有效性与可信度;通过提出PsySET基准框架,结合心理测量任务与TrustLLM基准,对提示词、参数高效微调(PEFT)、向量注入三类引导方法在四种主流LLM上的表现进行对比;结果表明提示词方法(尤其是少样本提示)有效性最优但强度控制有限,向量注入可实现精细强度调节但可能降低输出质量,情绪和人格引导会引发安全性、真实性、公平性等维度的副作用;最终结论为PsySET建立了LLM心理引导的全面评估体系,为社交互动类LLM的安全、透明开发提供了关键支撑。

核心问题

  1. 缺乏统一框架评估LLM情绪与人格引导的有效性,现有研究未系统对比不同引导技术(提示词、微调、向量注入)的优劣及强度可控性。
  2. 心理引导可能引发未预期的行为副作用(如安全性下降、偏见增强),但缺乏对引导后LLM可信度(安全、真实性、公平性等)的全面审计。
  3. 现有情绪/人格引导评估多局限于表层任务(如语气分类),未结合心理测量学方法开展深度行为评估。

主要贡献

  1. 提出PsySET基准框架,整合心理测量学启发的评估任务,首次实现对LLM情绪和人格引导的有效性与可信度的 holistic评估。
  2. 系统对比三类主流引导技术(提示词、PEFT、向量注入),涵盖不同强度调节策略、数据来源和模型层干预位置,揭示各类方法的适用场景与局限。
  3. 建立“预期引导效果-意外行为偏移”的区分框架,量化分析情绪/人格引导对LLM可信度的多维度影响,为风险规避提供依据。

研究方法

引导技术

  1. 提示词方法:包括零样本(仅含指令)、少样本(附加目标行为示例)、描述性提示(将示例整合为连贯段落),通过“slightly/intensely”等词汇调节强度。
  2. 向量注入(VI):基于线性表示假设,通过MeanDiff或线性探针构建目标概念向量v(l),注入模型隐藏层ht(l),公式为$\tilde{h}_{t}^{(l)} \leftarrow h_{t}^{(l)}+\beta \frac{v^{(l)}}{\left\|v^{(l)}\right\|_{2}}$,其中β控制引导强度。
  3. 参数高效微调(PEFT):采用LoRA适配器,包括监督微调(SFT,最大化目标行为样本似然)和直接偏好优化(DPO,对比偏好/非偏好样本),通过训练步数调节强度。

数据集

  • 情绪引导:GOEMOTIONS(细粒度情绪标注)、CARER(社交媒体情绪文本)、EMOTRANSLATE(中性-情绪平行句)、EMOVIGNETTE(自我报告情绪短文)等。
  • 人格引导:PERSONA(人格特质陈述),聚焦OCEAN五大人格特质(开放性、尽责性、外向性、宜人性、神经质)。

评估指标

  1. 有效性指标:多选择自我报告准确率、开放式生成情绪/人格对齐率、词汇对齐损失(VAD空间L2范数)、文本流畅度与连贯性(GPT-4o评分)。
  2. 可信度指标:基于TrustLLM基准,涵盖安全性(越狱抗性、毒性)、真实性(对抗性事实检测、幻觉)、公平性(刻板印象、偏好偏差)、隐私(信息泄露、隐私意识)等维度。

各章节详解

1. 引言(Introduction)

阐述LLM心理引导的应用价值,包括教育辅导、客户服务、情感陪伴等社交互动场景,指出情绪调控(如喜悦强化动机)和人格塑造(如个性化交互)能提升LLM的人文关怀属性。同时点明现有研究的不足:缺乏统一评估框架、未系统对比引导技术、忽视行为副作用。最后提出PsySET基准的核心目标的——填补有效性与可信度评估的空白。

2. 相关工作(Related Work)

  • 引导技术:提示词方法易操作但强度控制有限,PEFT(SFT/DPO)通过参数微调实现稳定引导,向量注入基于隐藏层编辑,具有微创、高效的特点。
  • LLM情绪研究:现有工作集中于情绪分类和共情微调,向量注入在情绪控制中的应用尚处于探索阶段,但缺乏强度调节与副作用分析。
  • LLM人格研究:通过心理测量量表(如BFI)证实LLM存在稳定人格特征,但引导技术的有效性依赖评估任务,且可信度影响未被量化。
  • 可信度研究:情绪框架会影响LLM的虚假信息生成和稳定性,但未结合心理引导场景开展系统评估。

3. 预备知识(Preliminaries)

3.1 引导技术原理

  • 条件下一个token预测定义为wt = f(c, w1 : t − 1),其中c为上下文,w1 : t − 1为历史生成序列。
  • 向量注入通过修改隐藏层状态实现引导,不改变模型参数;PEFT通过训练轻量适配器微调模型偏好;提示词方法通过上下文工程直接引导行为。

3.2 数据集构建

将数据集分为D+(目标行为样本)和D(非目标行为样本),涵盖情绪(8类核心情绪)和人格(OCEAN五特质)两大维度,确保数据来源的多样性与代表性。

4. 有效性评估(Evaluation of Effectiveness)

4.1 情绪引导评估

  • 任务设计:涵盖多选择自我报告、开放式情绪描述、词汇片段补全、情绪一致性记忆提取等6类心理测量任务。
  • 关键结果:
    1. 少样本提示词效果最优,开放式生成准确率达87.3%,且文本质量稳定(流畅度4.6/5)。
    2. 向量注入需精准选择层位置(如16-17层),β = 5.0时可实现98.6%的自我报告准确率,但全层注入会导致连贯性降至1.2/5。
    3. DPO表现最差,开放式准确率仅57.8%,且训练稳定性差;SFT平衡效果与质量,流畅度达4.8/5。

4.2 人格引导评估

  • 任务设计:采用MPI量表(多选择问答)、TRAIT情境判断测试(开放式响应)、语言特征分析(SVM分类)。
  • 关键结果:
    1. 提示词在语言特征分析中表现最优,少样本提示可实现强外向性-内向性区分,但TRAIT任务中易出现极端化响应。
    2. 向量注入在情境判断测试中与提示词相当,但MPI量表表现较弱;SFT在MPI中效果稳定,但行为层面引导不足。

5. 可信度评估(Evaluation of Trustworthiness)

  • 情绪引导影响:
    1. 喜悦情绪会降低对抗性事实检测能力(易接受虚假信息)、增强偏好偏差,且越狱成功率上升。
    2. 愤怒情绪会提升毒性输出,但意外增强隐私保护意识(拒绝披露敏感信息)。
  • 人格引导影响:
    1. 宜人性引导会增加刻板印象认同,尽责性引导可降低毒性。
    2. 神经质引导削弱越狱抗性,开放性引导提升隐私意识。
  • 核心发现:引导副作用部分符合人类心理规律,但存在非直觉效应(如喜悦降低安全性),且与引导方法强相关。

6. 讨论(Discussion)

总结各类引导技术的trade-off:提示词方法“有效但可控性弱”,向量注入“可控但质量敏感”,SFT“稳定但行为引导有限”,DPO“效果差且易降质”。强调心理引导的双重性:既提升LLM的人文交互能力,也带来不可预测的风险,需结合PsySET进行全流程评估。

7. 局限(Limitations)

  1. 评估维度有限,仅覆盖核心情绪和OCEAN人格特质,未涉及更复杂的心理构念。
  2. 依赖LLM(GPT-4o)作为评估者,可能存在模型依赖偏差;语言特征分析受数据集领域偏移影响。
  3. 未纳入稀疏自编码器、梯度引导等新兴技术,且结果仅适用于英文模型。

8. 伦理考量(Ethical Considerations)

提出引导技术的伦理规范:需透明披露引导状态、获取用户同意、设置强度上限、限制脆弱群体应用场景。建议在引导后开展专项安全评估,采用保守默认参数(低强度、窄层窗口),并进行发布前红队测试。

9. 结论(Concluding Remarks)

PsySET为LLM心理引导提供了统一的评估范式,整合心理测量学与可信度审计,揭示了引导技术的有效性边界与风险特征。未来研究应基于该框架优化引导技术的精细度与安全性,推动社交互动类LLM的负责任开发。