On Generative Agents in Recommendation
On Generative Agents in Recommendation
论文概览
本文假设LLM驱动的生成式智能体可忠实模拟真实用户在推荐系统中的个性化偏好与行为,提出了集成用户画像、记忆、动作模块及可扩展推荐环境的Agent4Rec模拟器,通过多数据集多维度实验验证了智能体在偏好对齐、评分分布拟合等方面的有效性,且能复现过滤气泡效应并揭示推荐系统中的因果关系,最终得出Agent4Rec为推荐系统研究提供了创新仿真平台,可支持算法评估、数据收集及未解决问题探索的结论。
核心问题
- 传统推荐系统存在离线评估指标与在线实际性能脱节的瓶颈,缺乏能精准捕捉用户意图、编码人类认知机制的可配置仿真平台,阻碍了学术研究向实际部署的转化。
- LLM驱动的生成式智能体能否在推荐场景中忠实模拟真实、自主的人类行为。
- 如何利用生成式智能体模拟器为推荐领域未解决的关键问题(如过滤气泡、因果关系挖掘)提供新的研究视角与洞察。
主要贡献
- 提出Agent4Rec通用推荐模拟器,通过LLM驱动的生成式智能体模拟用户个性化偏好与行为模式,其定制化模块设计可复现人类认知机制。
- 构建了双并行评估框架,结合统计指标与离线性能、仿真反馈,系统评估了生成式智能体在推荐场景中的能力与局限性。
- 利用Agent4Rec成功复现了推荐系统中普遍存在的过滤气泡效应,并挖掘出推荐场景下的潜在因果关系,为该领域新研究方向提供了支撑。
- 提供开源代码与可扩展接口,使研究者可灵活集成各类推荐算法,为推荐系统的算法评估、数据收集提供了高效低成本的替代方案。
研究方法
- 智能体架构设计:为推荐场景定制三大核心模块,包括基于真实数据集初始化的用户画像模块(含社会特质与个性化偏好)、记录事实与情感记忆并支持检索/写入/反思的记忆模块、涵盖口味驱动与情感驱动行为的动作模块。
- 推荐环境构建:生成包含物品质量、流行度、类型、摘要的物品画像,采用分页式推荐模拟真实平台交互,并提供含传统协同过滤算法及开放接口的可扩展算法模块。
- 多维度评估:从用户层面评估智能体与真实用户的偏好、评分分布、社会特质对齐程度;从推荐系统层面评估不同算法的仿真反馈与离线性能;通过退出后访谈收集人类可理解的评估信息。
- 探索性实验:设计多轮迭代仿真复现过滤气泡效应,利用DirectLiNGAM算法从仿真数据中挖掘推荐系统中的因果关系。
各章节详解
1 引言(INTRODUCTION)
本章阐述了推荐系统在信息传播中的核心地位,以及传统监督式推荐方法存在的离线指标与在线性能脱节的关键问题——该问题导致学术研究难以落地,成为领域发展瓶颈。
基于LLM在类人智能、时空理解等方面的突破,本文提出构建可配置推荐仿真平台的研究范式,指出生成式智能体在模拟推荐场景虚拟用户方面的潜力。同时明确了研究目标:开发Agent4Rec模拟器,通过定制化模块设计解决推荐场景中智能体模拟的可靠性问题,并探索其在算法评估、未解决问题研究中的应用价值。
2 Agent4Rec设计(AGENT4REC)
2.1 任务定义
给定用户集合U和物品集合I,用yui = 1表示用户u与物品i有交互且给出评分rui ∈ {1, 2, 3, 4, 5},yui = 0表示无交互;物品质量定义为$R_i \doteq \frac{1}{\sum_{u \in U} y_{ui}} \sum_{u \in U} y_{ui} \cdot r_{ui}$,Pi表示物品流行度,Gi ⊂ G为物品类型集合。模拟器的核心目标是精准提炼用户u对未见过的推荐物品i的真实偏好ŷui和r̂ui。
2.2 智能体架构
- 画像模块(Profile Module):基于MovieLens-1M等真实数据集初始化,包含社会特质与个性化偏好两部分。社会特质涵盖活动度(Tactu ≐ ∑i ∈ Iyui)、从众度($T_{conf}^u \doteq \frac{1}{\sum_{i \in I} y_{ui}} \sum_{i \in I} y_{ui} \cdot |r_{ui} - R_i|^2$)、多样性(Tdiou ≐ |∪i ∈ {yui = 1}Gi|),并按分布分为三个层级;个性化偏好通过抽取用户历史中25个物品,由ChatGPT总结其“喜欢”(评分≥3)与“不喜欢”(评分<3)的模式生成。
- 记忆模块(Memory Module):记录事实记忆(推荐物品列表、用户反馈)与情感记忆(疲劳度、满意度),以自然语言和向量形式存储,支持记忆检索、写入和情感驱动的反思操作——当动作次数达到阈值时,智能体通过LLM introspect自身满意度与疲劳度。
- 动作模块(Action Module):包含口味驱动动作(观看、评分、生成观影感受)与情感驱动动作(退出系统、评估推荐列表、退出后访谈),通过思维链(Chain-of-Thought)增强情感推理能力,结合社会特质与记忆做出决策。
2.3 推荐环境
- 物品画像生成:基于历史评分计算质量,基于评论数确定流行度,通过LLM零样本学习分类物品类型并生成摘要,剔除类型分类错误的物品以降低幻觉风险。
- 分页式推荐场景:模拟Netflix等真实平台,按页展示推荐结果,后续页面可根据用户交互动态调整。
- 推荐算法设计:内置随机推荐、热门推荐、MF、LightGCN等协同过滤算法,提供开放接口支持自定义算法集成。
3 智能体对齐评估(AGENT ALIGNMENT EVALUATION)
本章围绕“生成式智能体能否忠实模拟真实用户行为”这一核心问题,从用户与推荐系统两个维度展开评估。
3.1 用户层面评估
- 用户偏好对齐:在三个数据集上让智能体区分真实用户交互过的物品与未交互物品,结果显示无论干扰项比例(1:m,m ∈ {1, 2, 3, 9})如何,智能体保持约65%的准确率和75%的召回率,但精确率和F1分数随喜欢物品比例降低而显著下降,归因于LLM的固有幻觉。
- 评分分布对齐:模拟评分分布与MovieLens-1M真实分布高度一致,4分占比最高,低评分(1-2分)占比极低——因LLM提前规避低质量影片,难以模拟观看后给出低评分的行为。
- 社会特质对齐:实验验证不同层级社会特质的智能体表现出差异化行为, ablation实验表明社会特质模块对行为可信度至关重要。
3.2 推荐系统层面评估
- 推荐策略评估:对比五种算法的仿真指标(观看率Pview、喜欢数Nlike、喜欢率Plike、退出页数Nexit、满意度Ssat),发现智能体对算法类推荐的满意度显著高于随机和热门推荐,且LightGCN表现最优,验证了模拟器的细粒度评估能力。
- 分页推荐增强:将智能体观看过的物品作为正向信号补充到训练集,可提升所有算法的离线指标(Recall@20、NDCG@20)与仿真满意度;而补充未观看物品则导致性能下降,证明智能体选择能反映真实偏好。
- 退出后访谈案例:智能体可结合自身偏好、社会特质与情感记忆,给出人类可理解的满意度评价与解释,为系统优化提供直观洞察。
4 洞察与探索(INSIGHTS AND EXPLORATION)
本章围绕“Agent4Rec能否为推荐领域未解决问题提供洞察”展开,通过两个探索性实验验证其价值。
4.1 过滤气泡效应(Filter Bubble Effect)
将MovieLens电影池分为四部分,让MF推荐算法经过四轮仿真迭代,每轮后重新训练。结果显示,随着迭代次数增加,推荐物品的类型多样性(N̄genres)下降,top-1类型占比(P̄top1 − genre)上升,成功复现了真实推荐系统中因反馈循环导致的内容同质化现象。
4.2 因果关系发现(Discovering Causal Relationships)
收集物品质量、流行度、曝光率、观看次数及智能体评分数据,采用DirectLiNGAM算法构建因果图。结果表明:物品质量和流行度是评分的直接原因(质量贡献最大);存在“流行度→曝光率→观看次数→进一步曝光”的反馈循环,揭示了推荐系统中流行度偏差的形成机制。
5 相关工作(RELATED WORKS)
5.1 LLM驱动的生成式智能体
分为任务导向型(如Voyager、ChatDev,聚焦执行特定任务)与仿真导向型(如S3、SANDBOX,聚焦模拟人类行为)。本文Agent4Rec属于后者,区别于推荐领域的任务导向智能体(如RecMind),专注于模拟用户与推荐系统的交互而非直接生成推荐。
5.2 推荐模拟器
传统模拟器(如RecSim、Virtual Taobao)依赖简单规则,灵活性和有效性不足;近期基于LLM的推荐模拟器(如RecAgent)侧重行为集成,而Agent4Rec聚焦于深入模拟和评估用户与各类推荐算法的交互,提供更全面的评估能力。
6 局限性与未来工作(LIMITATIONS AND FUTURE WORK)
局限性
- 数据源限制:依赖含详细物品描述的离线数据集,在线数据获取困难;
- 动作空间有限:未考虑社交网络、广告等真实场景中的关键影响因素;
- LLM幻觉问题:存在模拟低评分不准确、生成不存在物品等不一致现象。
未来方向
- 拓展数据源,探索在线数据的集成与利用;
- 丰富动作空间,纳入更多真实场景影响因素,提升模拟的普适性;
- 针对推荐场景微调LLM,降低幻觉,提升模拟器的稳定性与精度。