论文阅读——PATTON : Language Model Pretraining on Text-Rich Networks
论文概况
题目:PATTON : Language Model Pretraining on Text-Rich Networks
通讯作者:Jiawei Han: hanj@illinois.edu
作者院校:伊利诺伊大学厄巴纳-香槟分校
发表于:ACL 2023
论文内容
概括总结
目前缺乏对富文本网络(文本文档以及文档之间的语义关联)的预训练方法,PATTON则提出网络上下文掩码语言建模(节点中随机掩码部分 token,训练语言模型基于节点内部 token 和网络邻居的 token 预测被掩码的 token)和掩码节点预测(随机掩码部分网络中节点,训练语言模型基于邻居的文本信息正确识别被掩码的节点)以捕捉文本属性与网络结构之间的内在依赖关系。
PATTON 采用GNN 嵌套 Transformer 架构,首先通过 GNN 模块聚合节点邻居的 [CLS] 隐藏状态,然后将节点自身隐藏状态与邻居聚合状态拼接,随后通过不对称多头注意力和前馈网络更新隐藏状态。PATTON 统一使用最后一层 [CLS] token 的隐藏状态作为文本表示,适配下游任务。
- 面向文本丰富网络上的语言模型预训练问题,相较基线取得一定提升。
- 下游任务局限于分类、检索等,未扩展到摘要、问答等生成式任务。