机器之心编辑部发布

ICLR 2020 | 如何让图卷积网络变深?腾讯AI Lab联合清华提出DropEdge

近年来,图神经网络的研究异常火爆,被各大顶会录取的文章数量爆炸式增长。然而,目前大部分图卷积网络,尤其是面向节点分类的网络,都是浅层网络。这些模型分类效果往往随着深度加深而变差(即使使用残差连接),这与用于图片分类的卷积网络动辄超过几十层的现象很不一致。图卷积神经网络变深之后难以训练的现象严重制约了其表达能力。所以,如何有效的训练超深图卷积网络是图学习研究的一个重大挑战。这项工作由腾讯 AI Lab 与清华大学合作完成。

腾讯 AI Lab 和清华大学的这项研究表明,图神经网络无法做深由两个原因造成:过拟合 (Overfitting) 和过平滑(Oversmoothing)。为了解决这两个问题,文章提出了一种简洁但非常有效的方法:随机删边技术,DropEdge,极大提升了超深图卷积网络的训练效率和节点分类效果。值得注意的是,文章投稿到 openreview 的时候就引来了众多研究同行的关注。文章正式被接收后,图灵奖获得者 Yoshua Bengio 的团队成员 Petar Veličković(注意力图网络 GAT 的发明者)在 openreview 平台上也给与了关注与好评。

  • 论文地址:https://openreview.net/forum?id=Hkx1qkrKPr

  • 代码地址:https://github.com/DropEdge/DropEdge

引言

图神经网络(GNN)在近年取得了长足的发展。非常多的图神经网络的模型,例如图卷积神经网络(GCN),图注意力网络(GAT)等,在各种图学习的应用上都取得了非常不错的结果。但是,现在大部分的图卷积网络结构,其实都是浅层的(两层)。这种浅层网络极大的限制了图卷积网络的表达能力。最近,基于卷积神经网络里面的经验,有一些对图卷积网络做深的模型修改尝试。但是这些工作并没有真正去分析为什么图卷积网络很难做深以及去解释模型修改在图卷积网络里面是有效的。

这篇论文希望能够对图卷积网络不能做深这一问题得到一个完善的理论分析;并且基于理论的结果,寻找到可以解决深度图卷积网络训练的问题:过拟合 (Overfitting) 和过平滑(Oversmmothing)。在这里,过拟合指的是使用复杂模型去拟合少量数据的时候造成的泛化能力变差的情况。过拟合的现象在深度学习模型中是广泛存在的。

而过平滑则是指在图神经网络消息传递过程中,所有节点的输入特征会收敛到一个和输入无关的子空间的过程。这一过程会导致输入 GCN 的特征失效并造成梯度消失。过平滑是 GCN 模型特有的问题,它造成了深层图神经网络的训练困难。

下图的虚线部分是原始的 4 层和 8 层 GCN 在 Cora 数据集上的训练曲线(这里为了更好展示过拟合和过平滑,取消了 GCN 层中的 bias),可以看到,在 GCN-4 上,验证集 (Validation Set) 的损失函数在训练经过一定轮数后反向增长。这个增长是优于过拟合。而在 GCN-8 上,训练集 (Training Set) 上的损失函数则根本没有下降,这是因为过平滑的存在,导致 GCN-8 上训练失效。

文章定义了一个 subspace 和-smoothing 的概念去刻画过平滑这一现象。具体地,

其中为一个 GCN 层。是正则化后的邻接矩阵,为当前层参数。通过将过平滑的收敛目标定义为一个子空间而非一个固定点,-smoothing 可以刻画包含非线性激活函数和参数矩阵的 GCN。

DropEdge

本质上,减缓过平滑的影响就是要去增加-smoothing layer 的层数,以及减少收敛到子空间的信息损失。基于此,文章设计了一种非常简单但是有效的方法 DropEdge。在每轮训练的时候,DropEdge 会随机去掉输入的图上的边,即会将邻接矩阵的非零元素置 0,是删边概率。如果用表示 DropEdge 后的邻接矩阵,则是被去掉的边的邻接矩阵。在得到后,对其进行正则化得到 代替进行计算。

基于 relaxed -smoothing layer 的定义,文章证明了经过 DropEdge 后的邻接矩阵在进行 GCN 计算中可以减弱过平滑对模型的影响,即:

这种随机删边技术,可以看作是 Dropout 在图结构上的推广:Dropout 是通过丢掉特定的特征来实现模型内部的 Ensemble,而 DropEdge 则是通过丢掉边来实现 GNN 的 Ensemble,所以 DropEdge 也有防止 Overfitting 的作用。有趣的是,这种防止 Overfitting 的作用可以和 Dropout 一起使用来防止模型过拟合。同时,DropEdge 作为一个前处理的步骤,可以和任意 GNN 方法结合,具有非常强的普适性。

从图 1 可以看出,在加了 DropEdge 后,GCN-4 在验证集损失函数不再升高,而 GCN-8 可以成功进行训练,得到下降的损失函数。这验证了 DropEdge 可以在防止过拟合和过平滑两个方面提升深层 GNN 的训练效率和模型效果。

为了进一步验证这一简单方法的有效性,文章在不同模型,不同层数,不同数据集上进行了大量的实验,可以看到不同模型添加 DropEdge 可以显著提升节点分类任务的效果:

同时,在四个数据集上,添加 DropEdge 后均可以超过现有的 STOA 模型,值得注意的是,大部分的结果都是在大于等于 4 层图神经网络上得到的。

另外,下表也展示了 Dropout 和 DropEdge 在减弱过拟合上的协同效果:

总而言之,这篇文章提出了一个新颖且有效的方法 DropEdge 来提高深度图卷积网络训练效率和在节点分类任务上的性能。DropEdge 具有很好的通用性可以很方便地应用到已有的图卷积网络的架构中。更重要的是,文章给出了图卷积网络训练过程中遇到的过平滑现象详细严谨的理论描述,这为未来研究人员进行深度图神经网络的研究提供了非常重要的指导意义。

入门清华AI图卷积网络清华大学腾讯AI Lab
相关数据
损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

推荐文章
暂无评论
暂无评论~