参与小舟 陈萍

怎样预训练GNN能实现更好的迁移效果?北邮等提出自监督预训练策略

预训练与微调之间的差异能否缓解?来自北京邮电大学、腾讯、新加坡管理大学和鹏城实验室的研究者进行了分析研究,并提出了一种针对 GNN 的自监督预训练策略。

图神经网络(GNN)已经成为图表示学习的实际标准,它通过递归地聚集图邻域的信息来获得有效的节点表示。尽管 GNN 可以从头开始训练,但近来一些研究表明:对 GNN 进行预训练以学习可用于下游任务的可迁移知识能够提升 SOTA 性能。

但是,传统的 GNN 预训练方法遵循以下两个步骤:

  • 1)在大量未标注数据上进行预训练;

  • 2)在下游标注数据上进行模型微调。


由于这两个步骤的优化目标不同,因此二者存在很大的差距。

近日,来自北京邮电大学和腾讯等机构的研究者进行了分析研究以显示预训练和微调之间的差异。为了缓解这种差异,研究者提出了 L2PGNN,这是一种针对 GNN 的自监督预训练策略。

论文链接:https://yuanfulu.github.io/publication/AAAI-L2PGNN.pdf

该方法的关键点是 L2P-GNN 试图学习在预训练过程中以可迁移先验知识的形式进行微调。为了将局部信息和全局信息都编码为先验信息,研究者进一步为 L2P-GNN 设计了在节点和图级别双重适应(dual adaptation)的机制。最后研究者使用蛋白质图公开集合和书目图的新汇编进行预训练,对各种 GNN 模型的预训练进行了系统的实证研究。实验结果表明,L2P-GNN 能够学习有效且可迁移的先验知识,从而为下游任务提供强大的表示。

总体来说,这篇论文的贡献如下:

  • 首次探索学习预训练 GNN,缓解了预训练与微调目标之间的差异,并且为预训练 GNN 提供了新视角。

  • 针对节点与图级表示,该研究提出完全自监督的 GNN 预训练策略。

  • 针对预训练 GNN,该研究建立了一个新型大规模书目图数据,并且在两个不同领域的数据集上进行了大量实验。实验表明,该研究提出的方法显著优于 SOTA 方法。


L2P-GNN 方法

该研究首先提出了一个自监督 GNN 模型,在模型无关元学习(MAML)设置中学习图结构,然后是节点和图级双重适应,以模拟预训练过程中的微调。


自监督模型

L2P-GNN 的核心是学习预训练 GNN 以缓解预训练与微调过程之间的差距。具体来说,该方法可以表述为 MAML 的形式。为此,该研究将任务定义为从局部和全局角度捕获图中的结构和属性。然后,元学习先验就可以适应新的任务或图。

任务结构:将一组图作为预训练数据,,任务涉及的图由支持集查询组成。我们学习先验知识,通过梯度下降更新之后(与支持集上的损失有关),这可以优化查询集上的性能,从而模拟了微调步骤中的训练和测试。

图 1:L2P-GNN 图示。

基础 GNN 模型:对于给出的父任务与子任务,该研究设计了一个具有节点级聚合和图级池化的自监督 GNN 模型,旨在将节点级和图级的无标签图数据的内在结构作为自监督信号。


双重适应

为了缩小预训练和微调过程之间的差距,在预训练过程中优化模型快速适应新任务的能力是至关重要的。为此,该研究提出学习基础 GNN 模型的预训练,旨在学习可迁移的先验知识,提供可适应的初始化,以便快速针对具有新图数据的新型下游任务进行微调。具体而言,学习到的初始化不仅对节点对之间的局部连通性进行编码和调整,还能够泛化到图的不同子结构。相应地,该研究设计了节点和图级双重适应,如图 1(c) 所示。


实验

性能比较

表 2 对比了 L2P-GNN 和 SOTA 预训练基线(4 种不同的 GNN 架构)的性能,得到了以下发现:

  • 1. 总体而言,在跨架构的所有方法中,L2P-GNN 实现了 SOTA 性能。与每种架构的最佳基线相比,L2P-GNN 在两个数据集上分别实现了高达 6.27% 和 3.52% 的提升。研究者认为这么大的性能提升归功于预训练过程中的微调模拟,缩小了预训练和微调目标之间的差距。

  • 2. 此外,使用大量未标注数据对 GNN 进行预训练显然对下游任务有所帮助。因为相比于在两个数据集上未经过预训练的模型,L2P-GNN 分别带来了 8.19% 和 7.88% 的增益。

  • 3. 研究者还注意到,一些基线(即使用 EdgePred 和 AttrMasking 策略的 GAT 模型)在下游任务中的性能提升极为有限,并在下游任务上产生了负迁移。原因可能是这些策略学习的信息与下游任务无关,因而不利于预训练 GNN 的泛化。这一发现证实了先前的观察结果,即负迁移会限制预训练模型的使用性和可靠性。

表 2:在不同 GNN 架构下,不同预训练策略的实验结果。这些性能提升是相对于未经预训练的 GNN 而言的。


模型分析

如图 2 所示,微调前后 L2P-GNN 参数的 CKA 相似性通常小于基线,这表明 L2P-GNN 经历了更大的变化,从而更加适应下游任务。

图 2:GIN 层 CKA 相似性和在两个数据集上的损失及性能变化。

此外,由于节点、图级双重适应在 L2P-GNN 中非常重要,该研究比较了两种变体:L2P-GNN-Node(只有节点级适应)和 L2P-GNN-Graph(只有图级适应)。如图 3(a) 所示,在两个数据集上的结果表明 L2P-GNN 优于这两个变体。这说明,局部节点级结构和全局图级信息都是有用的,有利于进行联合建模。

图 3:模型分析

该论文研究了节点、图级适应步幅数 (s, t) 和节点表示维度的影响。图 3(b) 绘制了 L2P-GNN 在 0 ≤ s ≤ 3 和 0 ≤ t ≤ 3 下的性能。

最后,该研究总结了维度的影响如图 3(c) 所示。当维度在 300 维时,L2P-GNN 性能达到最优,并且在最优设置附近基本稳定,这说明 L2P-GNN 在维度表示方面具有鲁棒性。
理论北京邮电大学图神经网络
1
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。 腾讯希望成为各行各业的数字化助手,助力数字中国建设。在工业、医疗、零售、教育等各个领域,腾讯为传统行业的数字化转型升级提供“数字接口”和“数字工具箱”。我们秉持数字工匠精神,希望用数字创新提升每个人的生活品质。随着“互联网+”战略实施和数字经济的发展,我们通过战略合作与开放平台,与合作伙伴共建数字生态共同体,推进云计算、大数据、人工智能等前沿科技与各行各业的融合发展及创新共赢。多年来,腾讯的开放生态带动社会创业就业人次达数千万,相关创业企业估值已达数千亿元。 腾讯的愿景是成为“最受尊敬的互联网企业”。我们始终坚守“科技向善”的初心,运用科技手段助力公益事业发展,并将社会责任融入每一个产品。2007年,腾讯倡导并发起了中国互联网第一家在民政部注册的全国性非公募基金会——腾讯公益慈善基金会。腾讯公益致力于成为“人人可公益的创连者”,以互联网核心能力推动公益行业的长远发展为己任。腾讯公益联合多方发起了中国首个互联网公益日——99公益日,帮助公益组织和广大爱心网友、企业之间形成良好的公益生态,让透明化的“指尖公益”融入亿万网民的生活。

http://www.tencent.com/
负迁移技术

负迁移一般是指一种学习对另一种学习起干扰或抑制作用。负迁移通常表现为一种学习使另一种学习所需的学习时间或所需的练习次数增加或阻碍另一种学习的顺利进行以及知识的正确掌握。

推荐文章
暂无评论
暂无评论~