Engagement-Driven Content Generation with Large Language Models
Engagement-Driven Content Generation with Large Language Models
论文概览
本文假设大型语言模型(LLMs)可通过适配社交网络结构与意见分布生成最大化用户参与度的有意义内容,提出一种基于模拟反馈的强化学习(RLSF)框架,结合信息传播与意见动态构建参与度模型以替代实时实验反馈,经合成网络与真实社交网络(Brexit、意大利公投数据集)实验验证,该框架能让LLM自动调整生成内容情感以适配网络环境,参与度表现优于基线模型且与真实内容相当,最终证实LLMs可通过针对性微调实现社交网络中的高效内容生成。
核心问题
探究LLMs是否能学习生成在社交网络中最大化用户参与度的有意义内容,同时解决实时社交网络实验耗时、复杂的问题,且需适配不同网络结构(模块度、同质性)、意见分布(积极、消极、中性、均匀)及LLM在网络中的注入位置等变量。
主要贡献
- 提出RLSF框架,通过模拟参与度反馈替代实时实验,既降低时间成本又能精准控制网络内生变量(如LLM位置、意见分布)。
- 设计融合信息传播(独立级联模型)与意见动态(有界置信模型)的参与度模型,可作为即插即用组件适配不同场景。
- 经多维度实验验证,框架在合成与真实网络中均有效,生成内容的参与度堪比真实社交内容,且优于BERT、GPT-2、LLaMA3.1等基线模型。
- 框架具备灵活性,与底层传播模型无关,可扩展至计算社会科学中的复杂参与度任务与干预场景。
研究方法
- 参与度模型:将社交网络表示为有向图G = (V, E),节点对应用户,边表示关注关系;用x⃗ ∈ [0, 1]|V|表示用户对主题的意见(xu ≈ 1为支持,xu ≈ 0为反对);内容传播遵循独立级联模型,用户参与决策满足有界置信条件|st − xu| < ϵ(st为内容情感倾向,ϵ为置信阈值),最终参与度为活跃用户数|A|。
- 强化学习微调:以Gemma-2B为基础模型,采用近端策略优化(PPO)算法,优化目标为损失函数$\mathcal{L}(\theta)=\mathbb{E}_{y \sim P_{\theta}(\cdot | x)}\left[\mathcal{R}(y)-\beta log \frac{P_{\theta}(y | x)}{P_{\theta'}(y | x)}\right]$(θ′为原始模型,β为KL散度惩罚系数);奖励函数R = (ft ⋅ |A|)1/2,其中ft为内容流畅度得分(采用Flesch–Kincaid公式)。
- 实验设计:针对3个研究问题(RQ1:LLM生成能力与网络条件影响;RQ2:生成内容的真实性;RQ3:与现有方法对比),采用合成网络(控制模块度、同质性、意见分布)与真实网络数据集,对比多种基线模型的参与度表现。
各章节详解
1. 引言
介绍LLMs在一对一互动中的说服能力已被广泛研究,但在社交网络这种互联结构中的内容传播潜力尚未充分探索。提出本文研究问题,概述RLSF框架的核心流程:LLM基于查询生成内容,注入社交网络后通过参与度模型获取模拟反馈,以奖励形式用于模型微调,重复至收敛。同时说明该框架相比实时实验的优势(高效、可控)及灵活性(适配不同参与度模型)。
2. 相关工作
- LLM代理在复杂环境:现有研究聚焦LLM作为社交代理在基于代理的模型(ABMs)中的微观行为模拟,但缺乏在大规模社交媒体环境中对级联效应的探索。
- 社交媒体环境:信息传播模型已用于病毒式营销优化,但未解决“如何生成有效传播的文本内容”这一关键问题。
- 人类反馈替代方案:现有研究采用LLM-as-a-Judge等方法减少人工标注依赖,但本文首次提出结合社交网络结构的上下文相关模拟反馈,避免实时实验的伦理与成本问题。
3. 参与度模型
- 形式化定义:明确社交网络G = (V, E)、用户意见向量x⃗、内容情感倾向st ∈ [0, 1]的数学表示。
- 传播与参与机制:内容传播分离散时间步,遵循独立级联模型;用户参与决策基于有界置信模型,仅当内容情感与自身意见差异小于ϵ时参与,参与后成为“传染者”向关注者扩散。
- 算法实现:通过算法1(Engagement Model Mϵ)实现参与度计算,输入为内容情感、注入节点、网络结构、意见向量及置信阈值,输出活跃用户数|A|。
4. 提出的方法
- LLM形式化:将LLM表示为随机映射函数LLMθ(x) = y,输出服从分布Pθ(y|x)。
- 强化学习优化:采用PPO算法进行微调,通过KL散度惩罚控制生成内容与原始模型的偏差,避免训练不稳定。
- 微调流程(算法2):包含内容生成、情感推断(DistilBERT模型)、流畅度评分、传播模拟、奖励计算、策略更新6个步骤,停止条件为达到最大迭代次数或KL散度超过阈值τ。
5. 实验设置
- 研究问题:明确3个核心RQ,分别对应LLM生成能力、内容真实性、方法对比。
- 数据集:合成网络(控制同质性、模块度、意见分布等参数);真实网络(Brexit数据集含7589用户、532459条边,意大利公投数据集含2894用户、161888条边)。
- 参数设置:LLM选用Gemma-2B,微调步数(合成网络80步、真实网络500步),置信阈值ϵ = 0.2,KL散度阈值τ = 75。
- 基线模型:包括BERT、GPT-2、LLaMA3.1-70B-Instruct、ChatGPT-4o及未微调的Gemma-2B。
6. 实验结果
- RQ1:LLM可最大化参与度,积极意见网络收敛更快,消极/均匀意见网络中能偏离固有积极倾向生成适配内容;LLM在网络中的中心位置收敛更快,小社区+均匀意见场景收敛难度较大。
- RQ2:真实网络中框架有效,生成内容情感与目标社区一致,流畅度达标,参与度与真实推文相当(Brexit数据集真实内容参与度49.3%,生成内容31.9%;意大利公投数据集真实内容15%,生成内容14.2%),且内容长度与参与度无相关性。
- RQ3:在消极、中性、均匀意见网络中,本文框架显著优于所有基线模型;积极意见网络中与基线表现相当,证实微调对非积极意见场景的必要性。
7. 讨论与结论
- 核心结论:本文框架能让LLM生成适配社交网络的高参与度内容,解决了实时实验的痛点,且具备灵活性与扩展性。
- 局限:实验仅聚焦查询补全任务,未探索从零生成等其他任务;未考虑提示词结构对结果的影响。
- 社会影响:承认存在被用于恶意信息传播的风险,但强调其在民主协商、可靠信息推广、去极端化等社会公益场景的潜力,可通过优化奖励函数进一步提升社会效益。