A Synthetic Dataset for Personal Attribute Inference

A Synthetic Dataset for Personal Attribute Inference

NIPS

论文概览

本文假设合成数据集可在规避真实个人数据隐私与伦理风险的前提下,支持有意义的个人属性推断(PAI)研究,通过构建基于个性化LLM代理的Reddit模拟框架生成含7800+条人工标注评论的SynthPAI数据集,经实验验证该数据集真实多样(人类区分准确率仅51.9%),且18个主流LLM在其上的PAI推断结论与真实数据一致,最终证实SynthPAI及对应框架为隐私保护导向的PAI研究提供了可靠基础。

核心问题

现有个人属性推断(PAI)研究受限于数据缺口:真实PAI数据因涉及敏感个人信息,受GDPR等法规约束难以公开,且标注成本高;现有合成样本在场景、风格上与真实文本差异大,无法长期替代真实数据,导致PAI的隐私威胁评估与防御方法研究受阻。

主要贡献

  1. 提出基于个性化LLM代理的评论线程模拟框架,可生成高保真、多样化且支持PAI研究的合成评论,完全不依赖真实数据,符合隐私保护要求。
  2. 构建并公开首个开源隐私保护PAI数据集SynthPAI,包含103个评论线程、300个合成用户档案、7823条评论及4730个人工验证的属性标签,覆盖8类核心个人属性与5级推断难度。
  3. 通过大规模实验验证数据集有效性:证实其多样性与真实性,且在18个主流LLM上重现了真实数据的PAI研究结论,为PAI相关研究提供可复现的基础平台。

研究方法

  1. 合成用户档案构建:基于GPT-4生成300个包含年龄、性别、收入等8类属性的多样化档案,并为每个档案添加个性化写作风格描述,确保LLM代理输出一致性。
  2. LLM代理线程模拟:设计多轮交互算法,让代理基于档案兴趣参与线程,通过评分函数σ(n, ap, t)选择回复目标,生成符合场景与风格的评论。
  3. 标签标注流程:先由GPT-4自动标注可推断的个人属性,再经人工审核修正,添加推断难度等级(1-5级),最终保留与档案真值匹配的标签。
  4. 数据集验证:从多样性(属性、主题分布)、真实性(人类区分实验)、PAI适用性(重现真实数据实验、属性准确率、匿名化后推断能力)三方面验证。

论文各章节详解

1. 引言(Introduction)

本章开篇点明LLM的广泛应用伴随隐私风险,重点聚焦其通过文本推断个人属性的PAI威胁。随后提出核心矛盾——PAI研究因真实数据的隐私与伦理限制陷入数据短缺,现有合成样本无法满足研究需求。最后概述本文解决方案:构建LLM代理驱动的社交平台模拟框架,生成SynthPAI数据集,并通过实验验证其真实性与有效性,为PAI研究突破数据瓶颈。

2.1 个人数据定义

明确个人数据(GDPR)与个人可识别信息(PII)的法律定义,指出两者均涵盖经济状况、种族等8类核心属性,为SynthPAI的属性选择提供依据。

2.2 LLM隐私风险

区分两类隐私威胁:一是记忆训练数据的逐字复现,二是本文关注的从上下文推断个人属性的能力,后者未被现有记忆相关研究充分覆盖。

2.3 作者画像与PAI研究

回顾PAI研究演进:传统方法依赖有监督学习与特定NLP技术,而LLM凭借零样本能力实现近人类水平的PAI推断,但因缺乏公开数据集,相关研究难以推进。

2.4 现有数据集与合成数据

指出现有真实数据集(如PAN竞赛数据集)仅覆盖少数属性,且难以获取;LLM合成数据已在多个领域证明有效性,为本文方法提供可行性支撑。

3. 构建Reddit模拟环境和代理(Building a Reddit Simulation Environment and Agents)

3.1 数据集关键要求

提出合成PAI数据集需满足4点要求: - R1(场景):符合多主体评论线程结构,评论需结合上下文; - R2(多样性):覆盖多样属性、观点与主题,避免模型偏见; - R3(质量风格):与真实文本质量、风格一致; - R4(PAI适配性):包含不同推断难度的属性线索。

3.2 模拟框架细节

  • 合成档案构建:每个档案包含8类属性+写作风格描述,由GPT-4生成并人工验证多样性与一致性。
  • 线程模拟算法:通过Algorithm 1实现多轮交互,核心评分函数为: $$\sigma(n, a_{p}, t)=\frac{m \cdot c_{a_{P}} \cdot 5 + c_{root} \cdot 2 + k \cdot c_{a_{X}}}{n}$$ 其中m为代理在子线程的评论数,croot为根评论权重,k为其他用户评论数,n为父树长度,用于模拟人类回复行为偏好。
  • 评论生成机制:代理结合档案、线程上下文与写作风格生成评论,通过链-of-thought自检确保风格一致性,同时避免显式泄露属性。

3.3 SynthPAI创建

生成103个线程后,先由GPT-4标注属性标签,再经人工审核修正,最终得到7823条评论、4730个有效标签,覆盖91个主题子版块与5级推断难度。

4. 评估(Evaluation)

4.1 多样性与真实性验证

  • 多样性:档案属性重叠率低(多数仅1个属性重合),线程覆盖91个subreddit,评论长度、参与人数等指标分布与真实Reddit一致。
  • 真实性:40名参与者区分合成与真实评论的准确率仅51.9%,接近随机猜测,证实合成评论的高保真度。

4.2 PAI适用性验证

  • 重现实验:在18个LLM上复现Staab等人的真实数据实验,模型相对性能排序一致,GPT-4准确率达76%,仅比真实数据低约10%。
  • 属性准确率:8类属性的推断准确率与真实数据偏差小于12.5%,其中性别(92.8%)、出生地(88.0%)推断难度最低。
  • 匿名化后推断:经Azure语言服务匿名化后,GPT-4仍能以50%准确率推断位置等属性,证实数据集可用于评估隐私防御效果。

5. 讨论(Discussion)

5.1 研究影响

SynthPAI填补了PAI研究的公开数据缺口,支持隐私保护的模型评估与防御方法研发,其框架可扩展至其他社交平台或属性类型。

5.2 局限性与未来方向

  • 局限性:部分LLM生成评论存在微小 artifacts,标签自动化准确率需提升,未包含点赞等平台元特征。
  • 未来方向:扩展属性与语言类型、支持博客等其他文本场景、加入平台元特征模拟,提升框架与真实平台的一致性。

6. 结论(Conclusion)

总结本文核心成果:提出LLM代理驱动的模拟框架,生成并验证了高保真、隐私保护的PAI数据集SynthPAI。实验证实该数据集在多样性、真实性与PAI适用性上与真实数据等价,为LLM相关的隐私风险评估、防御方法研发提供了可靠且开源的基础平台,推动PAI研究的可复现与可持续发展。