AI TIME 论道作者李军、任付鑫、孔捷整理孙泽宇、张帆进 校对田雨晴排版:

清北学霸分享AAAI&KDD论文—带你了解「神经网络的代码生成」与「开放学术图谱」

激辩学术论题,探寻科学真谛!

2019年11月20日,第二期AI Time PhD在冬日寒冷的北京擦出了学术的火花。现场来自各大高校的学子与嘉宾一同认真聆听、仔细记录、热烈讨论。
本期活动邀请到了北京大学计算机软件与理论专业的孙泽宇博士生,清华大学计算机系张帆进博士,两位学霸现场与大家分享了他们最新的科研成果。
清华大学计算机系刘知远副教授、北京邮电大学张忠宝副教授作为本次特邀的神秘嘉宾亲临现场带来了精彩的指导与点评,也与现场的同学们一起探究与讨论。未能到达现场的观众也通过观看微信群文字直播、远程提问以及查看现场照片流的形式参与了本次分享活动。

《基于神经网络的代码自动生成

人工智能让程序员自危:代码自动生成

人工智能时代,非计算机领域的从业人员可能面临失业,那么计算机领域的从业人员——程序员是否也会面对失业的威胁呢?孙泽宇博士最近发表在2019AAAI的“基于神经网络的代码自动生成”工作或许让这种威胁成为可能。

代码自动生成任务是指给定相关自然语言描述,机器自动根据此描述生成对应的目标代码。现有直观的方法主要是利用循环神经网络(seq2seq模型)进行代码生成。然而,这种常用于机器翻译领域任务的seq2seq模型在执行代码自动生成任务时主要存在两个问题:(1)无法解决代码生成任务的长依赖性问题,一串代码通常依赖于很久以前出现的代码,例如,变量引用可能依赖于变量定义等;(2)无法解决代码生成任务的语法规则问题,原因在于编程代码中有着严格、丰富的语法结构信息。针对这两大挑战,孙泽宇博士提出了一种基于语法结构的卷积神经网络模型算法,充分利用生成目标代码中的抽象语法树信息进行代码的自动生成任务。

具体而言,算法包含三方面信息的输入,分别是原始的自然语言描述信息,部分已经生成的抽象代码语法树信息和代码语法树中的父子节点连接位置信息。每一通道的信息对应各自相应的卷积网络结构进行表示学习,然后利用池化层与注意力机制层将这三方面信息进行融合,最后通过感知器模型以概率的形式预测代码的语法规则。

作者采用炉石传说(卡牌游戏)数据进行实验,生成的代码效果如下图所示,可以明显看到机器学习到的代码(Generated code)与真值(Reference code)一模一样。可以预见,在不久的将来程序员也会逃离“不断调试代码”的苦海,让智能的机器自动生成代码更好地去辅助自己的工作。
由此看来,。。。

啊,问题在哪里?

问答思辨环节......

两位特邀嘉宾分别对上述工作表达了自己的看法与疑问。刘知远老师认为,泽宇的分享还可以补充两点:一是对其他学者已有工作的描述,二是对自己的科研成果进行创新点介绍。张忠宝老师认为在讲述自己工作时如果能够引入一个更生动的例子或许效果会更好,并且希望讲者能够与现场观众进行“眼神交流”,有针对性地解决听众的疑惑。

《开放学术图谱(OAG):面向大规模异构网络的实体连接


张帆进博士分享了自己2019年发表在KDD的“开放学术图谱(Open Academic Graph,OAG):面向大规模异构网络的实体链接”工作。匹配不同数据源中的相同实体是构建开放知识图谱的根基,并且实体对齐是数据集成的关键一个步骤。作者在两个不同的亿级学术图谱(微软MAG和清华AMiner)进行实体链接对齐工作。
这两个不同数据源的学术图谱主要包括出版地点、论文、作者三种不同实体。张帆进的工作分别实现这三种实体的正确链接与对齐,如下图所示,红色实线表明错误对齐,绿色实线表明正确对齐,绿色虚线表明未能对齐。在进行这两个不同数据的对齐过程中,主要面临三个挑战:(1)实体异构:实体类型不同以及实体属性不一致;(2)实体歧义:同名消歧问题;(3)数据规模大:每种数据源中有上亿级别的论文出版物。
 针对以上挑战,作者介绍了一个实体匹配框架LinKG。如下图所示,此框架主要包括三个匹配模块,分别用于匹配不同类型的实体。(1)为了匹配基于单词序列的实体(如出版地点),该框架采用了一种基于长短时记忆网络(LSTM)的方法来捕获单词依赖性。(2)为了匹配大规模实体(如论文),该框架利用局部敏感哈希(LSH)和卷积神经网络(CNN)来实现大规模和精确匹配。(3)为了匹配具有歧义的实体(如作者),作者提出异构图注意力网络来建模不同类型的实体。
基于上述框架LinKG,作者最终生成和发布了OAG数据集,其中包含来自这两个图谱的出版地点,论文和作者数据以及相应的匹配关系,大约有3万个出版地点匹配关系,9000万个论文匹配关系和170万个作者匹配关系。OAG现在由大约7亿个实体和20亿个关系组成,是迄今为止最大的、公开可用的异构学术图(https://www.openacademic.ai/oag/)。OAG可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等。

互动起来

两位老师分别对上述工作表达了自己的看法与疑问。

张忠宝老师认为上述工作的核心价值是在于,面对海量的真实学术图谱领域数据,将实体匹配与对齐工作做到目前最好的性能。对此,张老师给予了充分肯定;但是针对其中所面临的挑战,以及工作的可扩展性,张老师表达了自己的疑惑。

刘知远老师认为作者的工作有些工程化,针对文章中实体对齐任务是否探索过作者自己原创的算法,提出了疑问。

此外,刘知远老师对AI Time PhD系列活动给予了很高的评价,认为这个平台给国内的博士生提供了一个分享与交流的机会,希望国内的博士生都能够更自信地去“捍卫”自己的科研成果,并对自己的整个博士课题框架有个清晰的规划。最后,刘老师针对现场观众的提问关于科研工作中“性别问题”给出了自己的看法,认为计算机领域更能够体现出性别的平等,计算机这个行业在未来与其他学科的结合会更紧密,不同性别的科研工作者可以发挥各自的优势。
短短两小时的热烈讨论,带来的是思想的碰撞和无穷的回味!在本次活动结束之后,仍有许多现场观众意犹未尽,同嘉宾就相关学术问题进行交流。

正如AI Time的两位志愿者所讲:AI Time PhD为博士生们提供了一个展示自己的舞台,但不止于此的是,它还为广大学子提供了一个接触顶级科研工作者的渠道,为广大的科研工作者提供了一个平等交流的平台,这也正是AI Time所承担的使命与责任。

你是否还意犹未尽呢?期待下次见!

参考文献:

[1]Sun Z, Zhu Q, Mou L, et al. A grammar-based structural cnn decoder for code generation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 7055-7062.
[2] Zhang F, Liu X, Tang J, et al. OAG: Toward Linking Large-scale Heterogeneous Entity Graphs[C]//Proceedings of the Twenty-Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2019, 25: 2585-2595.
AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
入门知识图谱神经网络KDD 2019AAAI 2019
1
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

实体链接技术

在自然语言处理中,实体链接,也称为命名实体链接(NEL)、命名实体消歧(NED)。实体链接的任务是为文本中提到的实体(例如着名的个人,地点或公司)分配唯一的身份。

推荐文章
暂无评论
暂无评论~