张帆进作者

清华大学和微软研究院联合发布的“开放学术图谱(OAG)2.0版本”数据完善

开放学术图谱 (OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术 (Microsoft Academic Graph,MAG)和AMiner 。

开放学术图谱(OAG) 2.0在今年2月发布之后,受到各界的关注和反馈。我们在OAG 2.0的基础上,完善了微软学术(MAG)论文数据,更新版本添加了以下论文属性:论文引用关系、论文研究领域(fields of study)、索引后的论文摘要、论文作者机构。

MAG论文更新版下载链接:

http://c7.gg/f7GnH

OAG访问网址:

 https://www.aminer.org/oag2019

OAG v1

2017年8月,清华大学和微软研究院联合发布的OAG v1,具体来说包含了来自MAG的166,192,182篇论文和来自AMiner的154,771,162篇论文的元数据信息。经过集成这些数据信息,生成了两个学术图谱之间近64,639,608对链接(匹配)关系。

OAG v1概览OAG v1在过去一年多的时间里吸引了约40,000次下载。这次,OAG v2在OAG v1的基础上增加了作者和出版地点相关的数据。

OAG v2

OAG v2包含了更多类型实体(作者,出版地点,论文)以及相应的匹配关系。OAG v2定义的问题如下图所示。

大规模实体匹配的示例

上面的表格介绍了OAG目前有约7亿实体数量,不同实体相互联系构成一个大规模异构网络。图中间表示作者名字的歧义性。图下面展示了不同类型实体的异构性,因此匹配不同类型的实体需要考虑其不同的特点。

OAG致力提供完全开放、免费的公开学术图谱。截止2019年1月,OAG包括约7亿实体和约20亿实体之间的链接关系。OAG v2的统计数据如下面三个表所示。MAG和AMiner两个学术图谱都在不断演变,OAG v2采用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

数据类型

#匹配对/出版地点

日期

匹配关系

29,841

2018.12

AMiner出版地点

69,397

2018.07

MAG出版地点

52,678

2018.11

表1:OAG出版地点数据统计

数据类型

#匹配对/论文

日期

匹配关系

91,137,597

2018.12

AMiner论文

172,209,563

2019.01

MAG 论文

208,915,369

2018.11

表2:OAG论文数据统计

数据类型

#匹配对/作者

日期

匹配关系

1,717,680

2019.01

AMiner作者

113,171,945

2018.07

MAG作者

253,144,301

2018.11

表3:OAG作者数据统计

注:对于作者匹配,学者们只考虑了论文数不少于5的作者。将论文数量较少的作者排除后,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。

挑战与困难

构建亿级开放学术图谱是一项极具挑战的研究工作。下面举例说明主要的难点所在:

1. 实体异构

OAG中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc;出版地点有全称或缩写等多种形式。

2. 实体歧义

同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在KDD 2016中收集了两篇题为“robust influence maximization”的不同论文。

3. 大规模匹配

要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例,AMiner和MAG各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。

为此,学者们尝试结合哈希算法,不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(出版地点,论文和作者)。

评估

学者们评估了少部分匹配关系(大约1,000个出版地点/论文/作者匹配对),准确率如表4所示。

实体类型

出版地点

论文 (新匹配)

作者

准确率

99.26%

99.10%

97.41%

表4:实体匹配准确率

开放学术图谱是开放学术组织(Open Academic Society)的一个重要项目。它是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。

OAG可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等。

OAG访问网址:

 https://www.aminer.org/oag2019

参考文献

[1] Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, and Kuansan Wang. 2015. An Overview of Microsoft Academic Service (MAS) and Applications. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15 Companion). ACM, New York, NY, USA, 243-246. [PDF ][System ][API ]

[2] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). pp.990-998. [PDF ] [Slides ] [System ] [API ]

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论知识图谱微软研究院清华大学
1
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

推荐文章
暂无评论
暂无评论~