小舟、魔王报道

2021斯坦福图机器学习课程CS224W开课了,Jure Leskovec主讲

2021 年第一个月刚刚过半,有些学校的新学期就已经开始了。

图是一种强大的数据结构,可以用于建模许多真实世界的场景,图能够对样本之间的关系信息进行建模。但是真实图的数据量庞大,动辄上亿节点、而且内部拓扑结构复杂,很难将传统的图分析方法如最短路径、DFS、BFS、PageRank 等算法应用到这些任务上。因此有研究者提出将机器学习方法和图数据结合起来,即图机器学习,这逐渐成为近年来机器学习中的一股热潮,特别是图神经网络(GNN)。

此前,斯坦福大学计算机学院副教授 Jure Leskovec 等人开了一门课程——CS224W,主题是图机器学习。最近,CS224W 2021 冬季课程开课了。



课程主页:http://web.stanford.edu/class/cs224w/

这门课程主要聚焦分析大量图时所面对的计算、算法和建模挑战。通过研究底层图结构及其特征,学习者可以了解机器学习技术和数据挖掘工具,从而在多种网络中有所发现。

这门课程涉及的主题包括:表征学习图神经网络;万维网算法;基于知识图谱的推理;影响力最大化;疾病爆发检测;社交网络分析。

预备知识

学习者需要具备以下背景知识:

基础计算机科学原理知识,能够写出不错的计算机程序;
熟悉基础概率论知识;
熟悉基础线性代数知识。

课程会在开始的几周内概述这些背景知识。

此外,课程网站还会定期放出讲义和阅读任务,下列书籍可作为阅读书目:

  • Graph Representation Learning 作者:William L. Hamilton;

  • Networks, Crowds, and Markets: Reasoning About a Highly Connected World 作者:David Easley、Jon Kleinberg

  • Network Science 作者:Albert-László Barabási


课程安排

2021 CS224W 冬季课程于 1 月 12 日正式开课,3 月 21 日结课。课程 PPT 将于每节课之前提供。

1 月份的课程包括图机器学习简介、图机器学习传统方法、节点嵌入、链接分析:PageRank、面向节点分类的标签传播算法和 GNN 模型的基本内容。


2 月份的课程将讲授图神经网络的设计空间、应用与理论,知识图谱嵌入,基于知识图谱的推理,借助 GNN 进行频繁子图挖掘,网络中的社区结构,传统图生成模型。



3 月份课程的内容主要包括图深度生成模型、GNN 的扩展、动态图上的学习、用于计算生物学的 GNN、科学领域的 GNN,以及 GNN 的行业应用。


讲师简介

课程主讲人 Jure Leskovec 是斯坦福大学计算机科学副教授,也是图表示学习方法 node2vec 和 GraphSAGE 的作者之一。他主要的研究兴趣是社会信息网络的挖掘和建模等,特别是针对大规模数据、网络和媒体数据。据 Google Scholar 显示,Jure Leskovec 发表论文 400 余篇,被引用次数超过 77000 次,h 指数为 111。其论文多次发表在 Nature、NeurIPS、KDD、ICML 等期刊和学术会议上,并两次获得 KDD 时间检验奖。


此前,他还曾参与斯坦福知识图谱课程的授课工作。

个人主页:https://cs.stanford.edu/people/jure/
理论斯坦福大学图机器学习GNN
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

链接分析技术

这是一种网络理论中用于评估节点之间关系(连接)的数据分析技术,属于网络计量学(Webometrics)范畴。网络中的节点可以包括多种类型的对象及其组合,如组织、人员和事务。链接分析已被用于调查犯罪活动(欺诈侦查、反恐和情报)、计算机安全分析、搜索引擎优化、市场研究、医学研究和艺术等领域。链接分析中最基础且重要的两类算法是PageRank算法与HITS算法。除此之外,其他常见算法还包括SALSA、PHITS、贝叶斯和Reputation等几类。而上述每一类算法都各自衍生出一些变种算法,从而形成了链接分析的算法体系。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

节点分类技术

节点分类任务是算法必须通过查看其邻居的标签来确定样本的标记(表示为节点)的任务。

图生成技术

根据给定信息信息生成图表。

知识图谱嵌入技术

知识图谱嵌入(Knowledge Graph Embedding,KGE)是将包含实体和关系的知识图谱的组成部分嵌入到连续向量空间中,在保持知识图谱固有结构的同时简化操作。

推荐文章
暂无评论
暂无评论~