张倩、杜伟参与

集成图网络模型实现、基准测试,清华推出图表示学习工具包

近日,清华大学知识工程研究室(KEG)推出了一个大规模图表示学习工具包 CogDL,可以让研究者和开发者更加方便地训练和对比用于节点分类、链路预测以及其他图任务的基准或定制模型。该工具包集成了 Deepwalk、LINE、node2vec、GraRep、NetMF、NetSMF、ProNE 等非图神经网络和 GCN、GAT、GraphSage、DrGCN、NSGCN、GraphSGAN 等图神经网络基准模型的实现。

清华大学计算机科学与技术系长聘教授、计算机系副主任、知识工程研究院教师唐杰发微博介绍 CogDL 项目。

  • 项目页面:http://keg.cs.tsinghua.edu.cn/cogdl/index.html

  • GitHub 链接:https://github.com/THUDM/cogdl/

与其他图表示学习工具包相比,CogDL 具有以下特点:

  • 稀疏性:在具有数千万节点的大规模网络上实现快速网络嵌入;

  • 任意性:能够处理属性化、多路和异构等不同图结构的网络;

  • 并行处理:在多个 GPU 上实现不同种子和模型的并行训练并自动输出结果表格;

  • 可扩展性:轻松添加新的数据集、模型和任务并在所有现有的模型/数据集上测试。

CogDL 图表示学习工具包的整体框架。

下游任务的 SOTA 结果和基准方法排行榜

对于节点分类(有无节点属性)、链路预测(有无属性、异构与否)和多路异构链路预测等下游任务,CogDL 提供了在这些任务上 SOTA 结果和基准方法的排行榜。

多标签和有属性的节点分类

如下图所示,这是无监督多标签节点分类设置的排行榜,开发者在真实世界的几个数据集(PPI、Blogcatalog 和 Wikipedia)上运行所有的算法并得出了排序后的实验结果。

ProNE、NetMF 和 Note2Vec 位列前三甲。

下图展示了集中流行图神经网络在内的监督式节点分类直推设置的排行榜。

排名前三的是 NSGCN、DR-GAT 和 DR-GCN。

链路预测

对于链路预测任务,开发者分别采用了 ROC、AUC 和 F1-score,这些用来表征随机未观察到链路中的顶点(vertices)比随机不存在链路中顶点更相似的概率。他们对这些指标进行了评估并删除了 PPI、Wikipedia 和 Blogcatalog 三种数据集上 15% 的边缘计算。最后实验重复了 10 次,并按顺序进行排列。

ProNE 排名第一。

多路异构链路预测

最后,对于多路异构链路预测任务,开发者依然采用了 ROC 评估指标。同样地,他们对该指标进行了评估并删除了 Amazon、YouTube 和 Twitter 三种数据集上 15% 的边缘计算。最后实验重复了 10 次,并按顺序进行排列。

在此分类中排名前三的方法是 GATNE、NetMF 和 ProNE。

CogDL 怎么用?

开发者在 GitHub 项目中介绍了 CogDL 的详细使用方法。要使用该工具,首先需要安装 Pytorch 和 Python,版本要求分别是:PyTorch version >= 1.0.0;Python version >= 3.6。

接下来,可以使用 python train.py --task example_task --dataset example_dataset --model example_method 在 example_data 上运行 example_method,然后通过 example_task 来进行评估。

CogDL 中的常规参数包括:

  • -task,评估表示的下游任务,如 node_classification、unsupervised_node_classification、link_prediction multiplex_link_prediction 等;

  • -datasets,支持的数据集包括'cora'、'citeseer'、'pumbed'、'PPI'、'wikipedia'、'blogcatalog'、'dblp'、'flickr';

  • -models,要运行的模型名称包括『gcn』、『gat』、『graphsage』、『deepwalk』、『line』、 『node2vec』、『hope』、『grarep』、『netmf』、『netsmf』和『prone』。

其他特定参数可以参见 GitHub。

除了这种常规用法之外,CogDL 还支持用户将自己表现良好的算法和数据集添加到项目中。具体步骤也可以在 GitHub 页面找到。

支持的数据集

下面两个表格列出了 CogDL 支持的数据集,包括含有属性的数据集和不含属性的数据集。

没有多标签节点分类属性的数据集。

含有多标签节点分类属性的数据集。

清华知识工程研究室(KEG)

清华大学知识工程研究室成立于 1996 年,致力于网络环境下知识工程理论、方法和应用研究。主要研究内容包括:社会网络分析与挖掘、新闻挖掘、语义 Web、知识图谱构建等。研究成果在相关领域的 ACM/IEEE Transaction 以及计算机学会指定的 A 类国际期刊、会议上发表 70 余篇高水平论文。

实验室在理论与应用研究结合方面成绩显著,研发的科研人员社会网络挖掘系统 ArnetMiner 是国内最早研发的、也是至今访问量最大的研究者社会网络分析与挖掘系统,系统目前已有 200 多个国家和地区 800 多万独立 IP 的访问。

该实验室的负责人是清华大学计算机科学与技术系软件研究所副所长李涓子,授课教师包括计算机科学与技术系长聘教授、计算机系副主任唐杰、清华大学计算机科学与技术系副教授许斌等。

此外,研究室还有多位优秀的硕士、博士、博士后及访问学生、工程师等。

入门唐杰图网络基准测试清华大学
相关数据
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

社会网络分析技术

社会网络分析方法是由社会学家根据数学方法﹑图论等发展起来的定量分析方法,近年来,该方法在职业流动、城市化对个体幸福的影响、世界政治和经济体系、国际贸易等领域广泛应用,并发挥了重要作用。社会网络分析是社会学领域比较成熟的分析方法,社会学家们利用它可以比较得心应手地来解释一些社会学问题。许多学科的专家如经济学、管理学等领域的学者们在新经济时代——知识经济时代,面临许多挑战时,开始考虑借鉴其他学科的研究方法,社会网络分析就是其中的一种。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

李涓子人物

李涓子,博士,清华大学长聘教授,博士生导师。中国中文信息学会语言与知识计算专委会主任。研究方向为知识工程、语义Web和文本挖掘。

节点分类技术

节点分类任务是算法必须通过查看其邻居的标签来确定样本的标记(表示为节点)的任务。

推荐文章
暂无评论
暂无评论~