实现图深度学习复杂研究性质任务太头疼?这个新工具包帮你应对

深度学习是目前AI领域最热门的方向之一,目前PyG和DGL等主流图深度学习框架大多是实现图深度学习的基本操作与模型,很难应对复杂图深度学习研究任务。近日,来自德州农工大学的姬水旺教授团队开发了首个面向复杂研究任务的可扩展型图深度学习工具包,包含图生成,图自监督学习图神经网络可解释性以及3D图深度学习任务,旨在帮助研究者在复杂图深度学习任务的算法开发上能够轻松使用常用数据集和评估指标与通用基准进行比较。


深度学习已经展示了其在学习丰富的图结构数据上的有效性。并且在许多问题上取得了重大进展, 例如药物发现、社交网络、物理仿真等。许多图深度学习框架(如 PyG,DGL 等)主要关注实现基本的图深度学习模块和基础任务,比如节点分类图分类等。但对于复杂的任务,比如图生成图神经网络的可解释性,研究人员仍然需要花费巨大精力实现算法并与基准模型进行比较。

为了解决这一问题,德州农工大学姬水旺教授领导的 DIVE(Data Integration, Visualization and Exploration)实验室开源了首个面向复杂研究任务的图深度学习工具包 DIG(Dive into Graphs)。该工具包由实验室 16 人团队(14 个博士生,1 个本科生,1 个指导老师)历时 1 年努力完成。与 PyG 和 DGL 等图神经网络框架不同的是,DIG 聚焦于为目前热门的复杂图深度学习研究任务提供更易用、更快速并且可扩展的算法开发与对比研究平台。

目前,DIG 工具包支持 4 个研究方向:图生成、图自监督学习图神经网络可解释性以及 3D 图深度学习。对于每个领域,DIG 都提供了通用、可扩展的数据接口、常用算法与评估标准实现。

总之,DIG 极大地方便了研究人员的算法开发以及与基准模型进行实验比较。
 

  • 论文地址:https://arxiv.org/abs/2103.12608

  • 项目地址:https://github.com/divelab/DIG

目前,DIG 涵盖 4 个研究方向的 18 个算法、33 个数据集、7 类评估指标。基于通用与可扩展的实现,未来可以将更多的方向和算法集成到 DIG 中。工具包整体结构如下图所示:

DIG 涵盖的四大方向。

图生成: 图生成算法研究的是如何基于给定的一组图数据生成新的图。图生成任务对于药物和材料开发有潜在的重要作用。因此,DIG 主要考虑可以生成分子图的深度学习算法。同时,DIG 中也实现了用以评估随机生成、分子性质优化和有约束的分子性质优化的相关指标。

自监督学习自监督学习的研究最近已扩展到图数据,利用特定的自监督任务可以帮助模型获得更有效的图特征表示。目前 DIG 中主要实现了常见的基于对比学习的图自监督算法,提供了针对节点分类图分类的数据接口和评估指标。

图神经网络可解释性:由于图神经网络已经被越来越多地部署在真实世界的应用中,为了更好地理解模型,对图神经网络的可解释性研究变得至关重要。DIG 中实现了常见的图神经网络解释算法。除了常用基准数据集和评估指标外,DIG 的开发人员还针对可解释性任务从文本数据中构建了易于人类理解的图数据集,极大地方便了后续图神经网络可解释性的研究。

3D 图深度学习:3D 图网络是指节点具有三维位置信息的图网络结构。例如分子中每个原子都有其相对的 3D 位置。考虑到图结构中 3D 位置信息对于提升图网络表达能力具有重要作用。DIG 中将三种最新 3D 图深度学习算法整合为一个 3DGN 框架,提供了统一的实现。也实现了常见的 3D 分子数据集的统一接口和评估指标。

关键设计准则

通用实现:DIG 对于每个研究方向的数据接口和评估方法都有通用的实现。这使得 DIG 能够充当标准化的测试平台。另外,对于可以从一个角度统一的算法,DIG 也会提供通用的算法实现。比如针对 3D 图深度学习的 3DGN 框架和针对图自监督学习的对比模型框架。

可扩展性和可定制化:借助于通用的实现,研究人员可以方便地集成新的数据集、算法与评估标准。而且用户可以灵活地选取数据接口和评估方法来定制化实验。因此 DIG 可以用作研究人员实现新的算法和与基准算法进行实验比较的平台。


工程图深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

图分类技术

图分类是许多不同领域中实际应用的问题。为了解决这个问题,通常会计算某些图形统计数据(即图形特征),它们有助于区分不同类别的图形。在计算这些特征时,大多数现有方法会对全图进行处理。

节点分类技术

节点分类任务是算法必须通过查看其邻居的标签来确定样本的标记(表示为节点)的任务。

图生成技术

根据给定信息信息生成图表。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~