Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

KDD CUP 2021首届图神经网络大赛放榜,百度飞桨PGL获得2金1银

百度飞桨凭借什么在「大数据领域世界杯」 KDD CUP三大赛道里豪取两金一银?

近日,由 KDD CUP 与 OGB(Open Graph Benchmark)联合举办的首届图神经网络大赛正式放榜,在 DeepMind、微软、蚂蚁金服、UCLA 等全球 500 多个顶尖企业、高校和实验室的激烈竞争中,百度凭借飞桨图学习框架 PGL 一路过关斩将,最终在三个赛道中斩获两金一银的傲人成绩。

本次大赛承办方斯坦福大学 Jure Leskovec 教授宣布冠军队伍

据了解,KDD CUP 是 ACM SIGKDD 组织的年度赛事,素有 「大数据领域世界杯」 之誉,是目前数据挖掘领域最高水平、最具影响力、规模最大的国际顶级赛事。而今年,KDD CUP 与 OGB 联合举办了第一届 OGB-LSC(OGB Large-Scale Challenge)比赛,提供来自真实世界的超大规模图数据,来完成图学习领域的节点分类、边预测和图回归三大任务。

本次比赛采取「闭卷考试」,整个比赛周期只有 2 次提交模型结果机会,极其考验参赛队伍模型泛化能力,竞赛难度极大。得益于百度图神经网络的持续深耕,在本次大赛的三大赛道之中,百度飞桨图学习框架 PGL,合计夺得大规模节点分类赛道冠军、大规模图关系预测赛道冠军、化学分子图性质预测赛道亚军。

飞桨 PGL 夺冠页面:https://ogb.stanford.edu/kddcup2021/results/

飞桨 PGL 代码完全开放,欢迎大家使用、反馈和贡献。

  • PGL 链接:

  • https://github.com/PaddlePaddle/PGL

  • B 站 图神经网络 7 日教程:

  • https://www.bilibili.com/video/BV1rf4y1v7cU

  • PGL 图学习入门教程:

  • https://aistudio.baidu.com/aistudio/projectdetail/413386

  • 飞桨 PGL 参赛报告 & 代码:

  • https://github.com/PaddlePaddle/PGL/tree/main/examples/kddcup2021

大规模节点分类赛道冠军:引入基于异构关系的统一消息传递模型

OGB-LSC 节点分类数据集,来源于真实世界的超大规模学术引用网络 MAG(Microsoft Academic Graph)。OGB 官方提取了超 2.4 亿的实体(包括论文、作者等),构建出包含 16 亿边关系的大规模异构图。参赛选手需从异构图中挖掘有效信息,预测出指定的 arXiv 论文的主题(总共包含 153 个主题,例如 cs.LG 机器学习、q-bio.BM 生物分子等)。 

目前,解决节点分类的图学习方法主要包含两类:一类是标签传递算法,而另一类则是通过模型对多阶邻居特征进行聚合,并预测中心节点标签的图神经网络。然而目前这两种方法均有其局限性,无法最大限度的利用图节点中的标签信息。

为解决上述问题,飞桨 PGL 提出了统一消息传递模型 UniMP,巧妙地利用了『标签』掩盖预测策略,使得模型可以在训练和预测中,同时进行标签传递和特征聚合,成功地将上述两种图学习方法统一到消息传递模型中,并在半监督节点分类任务上取得明显提升。目前,相关论文已被 IJCAI2021 收录,并成为目前节点分类任务中的主流的强基准

UniMP:标签与特征(图中蓝色能量)在统一的消息传递机制下进行传播

针对本次的大规模异构图,飞桨 PGL 进一步引入了基于异构关系的采样方法与注意力融合机制,将 UniMP 升级成为 R-UniMP,并且在飞桨并行计算框架基础上实现了分布式大规模图神经网络模型的训练和预测。实验结果相对官方基线的验证集准确率提升将近 10 个百分点!并最终在与 DeepMind、微软、蚂蚁金服、清华等一众国内外科技公司与学术机构的较量中摘得桂冠。 

大规模图关系预测赛道冠军:提出 20 层的 NOTE-RPS 知识图谱嵌入模型

本次边预测任务为大规模知识图谱中的关系预测。在知识图谱中,通过连接不同实体的三元组(例如姚明-出生于 ->上海)来表示关于世界的事实知识。然而,这些大型知识图谱并不完善,缺少实体之间的许多关系信息。

使用机器学习方法自动估算缺失的三元组可以显著减少人工修补成本,从而提供了更全面的知识图谱。本次比赛使用 Wikidata 知识图谱,包含近 9 千万的实体和 5 亿的三元组,为至今数据规模最大的知识图谱任务。

目前业界知识表示模型层出不穷,例如 TransE、RotatE 等。飞桨 PGL 基于大规模知识表示库 PGL-KE,对已有算法升级提出了 Normalized Orthogonal Transforms Embedding(NOTE)模型,能够对关系进行多维度建模,同时能在大规模场景下仍保持数值稳定性。

NOTE:归一化正交转换知识图谱嵌入模型

其次,飞桨 PGL 提出的 Relation-based Post Smoothing (RPS)图神经网络算法,对训练完的 NOTE 模型进行后处理,并使用了 20 层的 RPS 模型,堪称知识图谱领域最深的图神经网络模型。基于 NOTE+RPS 大规模知识表示方案的实验结果相对于官方提供的基准提升了 12 个百分点,并最终在与阿里巴巴、哈工大、中科大等团队的较量中一举夺魁,助力知识图谱向实践应用迈出了巨大一步。

化学分子图性质预测赛道:利用分子 3D 构象构造自监督预训练辅助任务

分子特性预测已被广泛认为是计算药物和材料发现中最关键的任务之一。基于 DFT 量子物理计算的方法需要耗费大量时间才能有效预测多重分子性质。为了利用图神经网络强大的表达能力来预测分子性质,飞桨 PGL 与螺旋桨 PaddleHelix 生物计算框架联合提出了 LiteGEM 模型,利用分子的 3D 构象构造自监督预训练辅助任务,提升分子性质预测效果,并最终获得亚军。

应用落地:可支持更大规模产业应用,飞桨图学习框架 PGL 迎来重大升级

除了在 KDD CUP 上全面开花,飞桨 PGL 也一直持续地致力于图神经网络算法创新以及更大规模的工业应用落地。

近日,飞桨 PGL 迎来重大升级,推出了万亿超大规模分布式图引擎,本次 KDD CUP 夺冠技术方案即是均基于该分布式图引擎。分布式图引擎研发的初衷也是希望图学习算法可以在业界实现更大规模的产业应用,目前,百度已借助飞桨 PGL 在搜索、信息流推荐、金融风控、智能地图、知识图谱等多个场景实现数十项应用落地。

深度学习开发者峰会 WaveSummit 2021 万亿图引擎发布现场

此外,飞桨 PGL 还与多个外部机构合作:网易云音乐在调研了大量开源方案后,也选择了对大规模图训练更加友好的飞桨 PGL 作为云音乐推荐的图神经网络基础框架。同时,飞桨 PGL 也助力科技创新 2030「新一代人工智能」重大项目 OpenKS 知识计算引擎。

源于图神经网络对于复杂数据建模的便利以及其强大的表达能力,飞桨 PGL 也探究图神经网络与多个交叉学科的结合,包括构建大数据疫情预测系统,与飞桨螺旋桨 PaddleHelix 合作致力于化合物属性预测,并在多个化合物预测榜单上取得 SOTA。

飞桨图学习框架 PGL 及其亮点

图学习作为通用的人工智能算法之一,势必成为智能时代新的基础能力,赋能各行各业,助力智能经济腾飞。现阶段仅仅是图学习热潮的开始,未来还将有更加深度的技术产出,和更大规模的产业机会出现,扎根图学习领域,持续为产业智慧化升级赋能,需要从现在就开始。
理论百度飞桨百度KDD
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
网易机构

网易成立于1997年6月24日,是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。

https://www.163.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
节点分类技术

节点分类任务是算法必须通过查看其邻居的标签来确定样本的标记(表示为节点)的任务。

知识图谱嵌入技术

知识图谱嵌入(Knowledge Graph Embedding,KGE)是将包含实体和关系的知识图谱的组成部分嵌入到连续向量空间中,在保持知识图谱固有结构的同时简化操作。

推荐文章
暂无评论
暂无评论~