小舟、杜伟报道

140页,初学者友好,麦吉尔大学助理教授Hamilton新书《图表示学习》开放下载

这本书的电子修订版以及印刷版有望今年年底推出,先来一睹为快吧!

近年来,图表示学习的研究激增,包括深度图嵌入(deep graph embeddings)技术、卷积神经网络对图结构数据的泛化以及受置信传播启发的神经信息传递方法。

与此同时,图表示学习的这些进步促成了许多领域的最新成果,包括化学合成、3D 视觉、推荐系统、问题解答和社交网络分析等。

近日,加拿大麦吉尔大学计算机科学助理教授 William Hamilton 在推特宣布他的新书《图表示学习》(Graph Representation Learning)初稿可以免费在线获取了。


据 William 介绍,这本书全面概述了图神经网络、节点嵌入、图卷积、图的深度生成模型以及相关的历史背景和传统方法。

有网友在阅读前两章内容后认为,书中的解释非常清晰和直观,值得与同事分享!


另有网友表示,这本书特别适用于图学习初学者。


章节介绍

该书首先讨论了图表示学习的目标以及图理论和网络分析的主要方法论基础。之后,作者介绍并回顾了学习节点嵌入的方法,包括基于随机游走(random-walk)的方法和知识图谱的应用。

接下来,作者对图神经网络形式(formalism)进行了综合介绍,该形式已经成为使用图数据进行深度学习的主要且快速增长的模型范式。

最后,书中总结了深度生成模型的最新进展,这些模型虽然提出的时间不久,但在图表示学习领域发展迅速。

引言

本章首先介绍了图这种数据结构,然后介绍了基于图的机器学习。


背景和传统方法

本章提供了一些方法论背景,介绍了在现代深度学习方法问世以前,基于图的机器学习使用了哪些方法。作者首先介绍了基本的图统计、核心方法以及它们在节点和图分类任务中的使用。然后作者在书中介绍并探讨了用于测量节点邻域之间重叠的方法,最后简要介绍了使用拉普拉斯(Laplacians)进行光谱聚类。


节点嵌入

本书第一部分主要介绍了节点嵌入的内容。

  • 第三章:邻域重建方法


在本章中,作者概述了简单图和加权图的节点嵌入方法。


  • 第四章:多关系数据和知识图谱


在本章中,作者介绍了用于多关系图的类比嵌入方法,同时还简要介绍了知识图谱的相关内容。


图神经网络

本书第一部分探讨了学习图中节点的低维嵌入的方法,第二部分则重点介绍了更加复杂的编码器模型。

  • 第五章:图神经网络模型


在本章中,作者看到开发用于图结构数据的复杂编码器的主要挑战在于,通常的深度学习工具并不适用。图神经网络(GNN)作为在图数据上定义深度神经网络的通用框架,作者对其基本内容展开了详细介绍。


  • 第六章:实践中的图神经网络


本章将探索 GNN 在实践中的应用。具体而言,作者将讨论 GNN 的一些典型应用以及实践中通常如何实现 GNN 的优化,其中重点探讨了特别有效的无监督预训练方法。此外,作者还将介绍一些用以正则化和提升 GNN 效率的常用技术。


  • 第七章:理论依据


本章讲述了图神经网络的一些理论依据,旨在向读者介绍不同理论依据背后的核心思想,这样感兴趣的读者就可以自由地探索和结合他们认为合适的直觉知识和动机。


生成图模型

本书第三部分主要介绍了生成图模型的相关内容。

  • 第八章:传统图生成方法


本章首先讨论图生成的传统方法,并且这些传统方法早于大多数图表示学习研究,甚至是通常的机器学习研究。此外,本章讨论的方法为之后出现的基于深度学习的方法奠定了基础。


  • 第九章:深度生成模型


本章介绍了一系列基础的图的深度生成模型,这些模型在创建通用深度生成模型过程中通常采用三种最流行的方法,分别为变分自编码器(VAE)、生成对抗网络(GAN)和自回归模型。作者将重点介绍这些深度生成模型的简单和通用变体,提供了详细的细节解读以及必要的参考文献。


作者介绍


William Hamilton 于 2018 年取得斯坦福大学计算机科学博士学位,现为加拿大麦吉尔大学计算机科学助理教授,同时还担任加拿大高等研究院(CIFAR)人工智能主席以及 Mila 魁北克 AI 研究所(Mila AI Institute of Quebec)成员。

William 在学生时代取得了诸多荣誉,他曾先后荣获 2013 年度 ACM 本科生研究者荣誉提名、2014 年度加拿大 AI 协会(CAIAC)最佳 AI 主题硕士论文奖,以及 2018 年度斯坦福大学 Arthur Samuel 最佳计算机科学博士论文奖。


他的研究兴趣主要是机器学习、网络科学和自然语言处理的结合应用,目前专注于图表示学习领域的快速发展项目。目前他在 Google Scholar 上的论文总引用量在 5000 以上。


参考链接:
https://williamleif.github.io/
理论
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

推荐文章
暂无评论
暂无评论~