TrajLLM: A Modular LLM-Enhanced Agent-Based Framework for Realistic Human Trajectory Simulation
TrajLLM: A Modular LLM-Enhanced Agent-Based Framework for Realistic Human Trajectory Simulation
论文概览
本文假设大型语言模型(LLMs)结合物理模型与记忆机制可生成贴合现实人类行为逻辑的移动轨迹,提出了包含角色生成、活动选择、目的地预测和记忆管理的模块化智能体框架TrajLLM,通过LLM与物理模型混合驱动的目的地选择机制及分层记忆管理,在东京公开POI数据与人口统计数据上的实验表明模拟轨迹与真实世界模式高度契合,最终证实该框架可在减少真实隐私数据依赖的同时,为城市规划、交通管理等领域提供可扩展、可解释的解决方案。
核心问题
- 真实人类移动数据存在隐私泄露风险与收集成本高的问题,难以直接大规模应用。
- 传统机械模型过度简化人类移动行为,无法生成全面细致的轨迹;深度学习模型缺乏对移动行为底层机制的捕捉,样本效率低且生成数据缺乏语义意图,可解释性与真实性不足。
- 现有LLM驱动的移动模拟模型要么过度依赖历史数据,要么未充分整合空间交互规律与智能体行为一致性,难以平衡真实性与效率。
主要贡献
- 提出模块化的TrajLLM框架,首次将LLM的语义推理能力、物理模型的空间交互建模能力与记忆模块的行为一致性保障相结合,实现活动驱动的人类轨迹生成。
- 设计混合式目的地选择机制,同时支持LLM基于历史偏好的个性化推荐与物理模型基于空间-频率权重的理性选择,兼顾灵活性与现实性。
- 构建分层记忆管理模块,通过渐进式总结与加权信息密度评分,在保证智能体行为一致性的同时优化存储效率,支持长期轨迹模拟。
- 开发交互式Web可视化平台,支持用户灵活配置参数并实时观察模拟结果,提升框架的实用性与可展示性。
- 减少对真实人类移动历史数据的依赖,仅需公开POI数据与人口统计数据即可生成高质量轨迹,规避隐私风险。
研究方法
- 框架选型:采用四大核心模块(角色、活动、目的地、记忆)的模块化设计,确保各组件解耦且可扩展。
- LLM选型:选用LLAMA-3.1-8B-Instruct与GPT-4o-mini作为核心推理模型,验证不同规模LLM的适配性。
- 角色生成:基于政府公开人口统计数据(年龄、性别、职业等)与大五人格特质,通过LLM生成符合现实人口分布的智能体角色,并分配固定核心地点(住所、工作地/学校)。
- 目的地选择:设计双路径机制——LLM路径基于历史访问数据生成个性化推荐,物理模型路径通过空间权重与频率权重的乘法整合计算POI选择概率。
- 记忆管理:采用日/周/月三级总结结构,结合信息密度、时效性与访问频率计算记忆重要性评分,动态修剪低价值记忆。
- 实验验证:基于东京公开POI数据集与本地人口统计数据构建实验场景,通过可视化界面展示多智能体单日轨迹,验证模拟结果的真实性。
各章节详解
1. 引言(Introduction)
本章开篇点明人类移动模式研究对可持续社区发展、传染病防控、能源优化与城市规划的重要意义,随后指出真实移动数据面临的隐私与成本困境,以及传统模拟模型的局限性。接着介绍LLMs在语义理解、意图生成与社会科学领域的应用潜力,综述现有LLM驱动移动模拟模型(如LLMob、CoPB)的不足,最终提出TrajLLM框架的设计目标:通过模块化整合LLM推理能力与物理模型,生成真实、可解释、低数据依赖的人类移动轨迹。
2. 框架架构(Framework Architecture)
本章详细阐述TrajLLM的四大核心模块及工作流程,整体采用迭代式运行逻辑:角色模块预处理智能体属性,活动模块迭代生成每日活动,目的地模块匹配具体位置,记忆模块记录历史行为并为后续决策提供支撑。
2.1 角色模块(Persona)
该模块为模拟提供基础智能体,分为两个阶段: - 角色生成:输入政府公开的人口统计数据(年龄、性别、就业状况、职业)与大五人格特质,通过LLM生成符合现实人口分布的智能体角色,确保不同角色的移动模式差异。 - 活动-地点列表生成:为每个角色分配专属列表,明确各类活动对应的潜在地点类别(如“用餐”对应咖啡馆、家常菜馆、家庭、餐厅),为后续活动与目的地选择提供约束。 该模块作为预处理步骤,为智能体行为提供核心属性支撑,确保轨迹的个性化与现实性。
2.2 活动模块(Activity)
该模块是轨迹生成的核心驱动,采用迭代式运行方式: - 输入信息包括智能体角色属性、活动-地点列表、当前已完成的日常流程与历史移动模式。 - 通过LLM推理生成下一项活动的关键信息:活动类型、对应的地点类别与持续时间。 - 当目的地模块确定具体位置后,该模块继续生成下一项活动,直至完成当日所有流程,随后重置并切换至下一个智能体。 模块通过上下文感知的迭代决策,确保活动序列符合智能体角色设定与日常逻辑。
2.3 目的地模块(Destination)
该模块负责为活动分配具体POI,提供两种互补的选择机制,均输入智能体当前坐标、活动地点类别与记忆模块中的历史访问数据:
2.3.1 基于LLM的目的地选择
- 从记忆模块提取历史访问记录,通过LLM分析偏好模式并生成个性化目的地推荐。
- 在指定半径范围内,LLM随机选择符合地点类别的POI(如“健身”对应附近健身房),平衡历史偏好与随机性。
2.3.2 基于物理模型的目的地选择
结合空间交互理论与电磁学原理,设计包含频率模块与空间模块的混合模型: 1. 空间权重计算:基于改进的空间交互模型,定义POI的空间权重为$W_{j}^{s}=\frac{V_{j}}{f\left(d_{i j}\right)}$,其中Vj为POI的吸引力因子,dij为智能体当前位置与POI的距离,f(d)为截断幂律距离阻抗函数,形式为f(d) = (d + r0)−βe−d/k(r0、β、k为经验估计参数)。 2. 频率权重计算:通过三步处理历史访问频率: - 排序归一化:$z_{i}=F_{c}^{-1}\left(\frac{rank\left(f_{i}\right)}{\left|P_{c}\right|}\right)$,其中Fc−1为目标分布的逆经验累积分布函数,Pc为该类别下的POI集合。 - 分布映射:fi′ = Ψ(zi),通过函数Ψ调整频率至符合真实分布。 - 权重归一化:$w_{i}^{f}=(1-\sigma) \frac{f_{i}'}{\sum_{j \in P_{c}} f_{j}'}+\sigma \frac{1}{\left|P_{c}\right|}$,σ为噪声因子,平衡偏好与随机性。 3. 最终概率计算:采用乘法整合空间与频率权重,POI选择概率为$P_{i}=\frac{W_{i}^{s} \cdot W_{i}^{f}}{\sum_{j \in \mathcal{P}_{j}} W_{j}^{s} \cdot W_{j}^{f}}$,确保兼顾便利性与偏好性。
2.4 记忆模块(Memory)
该模块负责管理智能体历史行为数据,保障长期行为一致性: - 采用分层存储结构:将原始日常活动总结为日、周、月三级摘要,减少冗余数据,提升存储效率。 - 记忆重要性评分:结合加权信息密度(事件、实体等类别分配不同权重)、时效性与访问频率,通过Sigmoid函数归一化得到评分,动态修剪低评分记忆。 - 核心作用:为活动生成与目的地选择提供历史行为依据,确保智能体表现出符合习惯的移动模式,增强模拟真实性。
3. 演示(Demonstration)
本章介绍TrajLLM的软硬件实现与实验展示: - 后端:基于Flask构建RESTful API服务器,提供/start_day等接口,支持输入智能体数量、起始时间等参数,返回活动与坐标数据,模块化设计便于扩展。 - 前端:采用HTML、CSS、JavaScript与Leaflet.js开发可视化界面,支持参数调节(滑块、输入框)、轨迹地图展示与实时活动日志查看。 - 实验数据:以东京公开POI数据集为基础,结合日本政府公开的人口统计数据生成智能体角色。 - 展示效果:通过10个智能体的单日轨迹可视化,直观呈现框架的轨迹生成能力,界面支持多维度查看智能体属性与活动详情,验证了框架的易用性与可扩展性。
4. 结论(Conclusion)
本章总结TrajLLM的核心成果:成功构建模块化LLM增强型智能体框架,通过活动驱动迭代与混合目的地选择机制,生成了真实、可解释的人类移动轨迹,减少了对真实隐私数据的依赖。同时指出研究局限:LLM难以完全捕捉人类行为复杂性,数据集潜在偏差需进一步缓解。未来研究方向包括:融入智能体间交互机制,优化权重分配系统,提升框架的泛化能力与真实性。
5. 数据伦理(Ethical Use of Data)
本章明确数据使用规范:所有数据集均来自公开可信来源,不含个人可识别信息(PII),符合伦理标准。同时要求TrajLLM生成的合成数据需明确标注,避免误导性使用,确保研究的透明度与问责制。