Helena Deus作者李诗萌 路雪编译

ISWC 2018概览:知识图谱与机器学习

本文是爱思唯尔技术研究负责人 Helena Deus 参加 2018 年国际语义网会议(ISWC)的见闻,总结了会议亮点,介绍了语义网的现状、知识图谱深度学习的关系等主题。

上周我参加了在加利福尼亚州蒙特雷举办的国际语义网络会议(ISWC),并在 Ada Lovelace 纪念日当天就爱思唯尔(Elsevier)在衡量和解决研究领域中的性别差异方面所做的工作发表演讲(详见:https://www.elsevier.com/research-intelligence/resource-library/gender-report)。会议的其他部分就像是一场回到过去的旅程……当然是以不错的方式回去的 :-)

借此机会我重新审视了自己从 2008 年开始的语义网研究。

(如果您对语义网已经有所了解想直接看机器学习部分的内容,您可以直接跳到「深度学习知识图谱」这一章)

语义网的愿景活跃且良好,广泛应用于行业

语义网的愿景是「对计算机有意义」的数据网络(正如 Tim Berners Lee、James Hendler 和 Ora Lassila 在《科学美国人》发表的文章《The Semantic Web》所介绍的那样)。ISWC 是共享这一愿景的研究人员和工程师组成的社区;他们通过发表研究论文的形式作出贡献,目的是让这一愿景成为现实。具体而言,语义网研究人员的方法是创建知识图谱,这种数据结构的实体由 URL 进行唯一标识,并使用 RDF 语言通过三元组链接至其他实体。研究人员用知识图谱推断知识或新的三元组(利用规则语言),或将知识图谱作为训练集找到文本(或其他媒介)中有意义的关系(TimBL 写过一篇相关的有趣文章:https://www.w3.org/DesignIssues/)。

尽管有人宣称语义网已死或奄奄一息,但我却持相反意见:语义网很有活力且广泛应用于行业,这一事实在 ISWC 会议上也多次得到印证——多篇论文是关于工业和医疗领域的,它们很好地例证了语义网技术正用于解决企业问题。同样重要的还有企业级知识图谱小组(Panel: Enterprise-Scale Knowledge Graphs),强调了 Microsoft、Facebook、Ebay(用于改进产品搜索功能)、Google(改进搜索)以及 IBM(让用户建立自己的知识图谱)在知识图谱上的投入,这些企业都在自己的产品中应用了知识图谱技术,为基于关键词的搜索提供更好的答案,从而改进用户体验。

语义网应用于行业和医疗领域的例子:

Babylon 利用知识图谱让每个人都能了解药物和医疗健康方面的知识。他们用推断的方法将症状与正确的疾病信息相匹配,并在移动 app 中的聊天机器人上使用。下图是他们论文(https://link.springer.com/content/pdf/10.1007/978-3-030-00668-6_18.pdf)中的自动交互图:

Franz Inc 和英特尔合作的 Montefiore Health System 用知识图谱识别和标记有风险的患者,有助于医生制订合适的治疗计划。下图是他们论文(http://ceur-ws.org/Vol-2180/paper-78.pdf)中的知识图谱图示:

爱思唯尔提出了一个数据网络,允许内部开发人员利用关联数据(Linked Data)原则从不同的系统获取医疗数据。他们的论文(http://ceur-ws.org/Vol-2180/paper-85.pdf)还讨论了该过程中遇到的挑战和获得的经验,包括如何将关联数据方法集成到开发周期中。Paul Groth 的展示幻灯片如下所示:

全部幻灯片见原文。

NuMedii 利用知识图谱为那些无法治愈的疾病寻找有效药物,即通过为领域专家提供可视化工具找到有意义的关系和队列组织(cohort building)。他们的例子介绍了针对无法治愈的纤维化疾病(特发性肺纤维化,IPF)的药物研发。NuMedii 挖掘了 PubMed 中关于纤维化疾病的 700K 摘要,通过发现适用于其他纤维化疾病的获批药物的相关验证靶标(validated target),来确定 IPF 疾病的可能药物。下面是他们论文(http://ceur-ws.org/Vol-2180/paper-81.pdf)中的图。

FINRA 使用知识图谱(和文本挖掘)捕获到数百万文档的元数据,并利用元数据链接而不是文本搜索的相关性排名帮助用户找到相互关联的文档。知识图谱有助于他们提高监管分析(regulatory analysis)的效能。下面是他们论文(http://ceur-ws.org/Vol-2180/paper-82.pdf)中的图。

深度学习知识图谱

许多工程师在将深度学习应用于知识图谱中看到的价值是:在创建或验证三元组时,只使用图中其他三元组而无需其他。经典的知识表征技术允许知识工程师创建推理器(reasoner)可解释的规则,以推断新的或丢失的三元组。例如,「类型为人的实体一定有出生日期的属性」这样的规则会给每一个类型为人的实例创建出生日期的三元组。这些规则一般通过本体(ontology)来表达,本体允许属性从上级到下级传播(详情请参阅:https://en.wikipedia.org/wiki/Knowledge_representation_and_reasoning)。确定正确的规则集是一个耗时的手动过程,但这个过程可以用机器学习来自动完成。

但找到正确的图表征将三元组提供给机器学习算法仍然是一个开放的研究领域。ISWC 的「深度学习」部分提出了以下方法:

Vecsigrafo(http://www.semantic-web-journal.net/content/vecsigrafo-corpus-based-word-concept-embeddings-bridging-statisticsymbolic-representational):这种方法依赖于联合词-概念嵌入(joint word-concept embedding)。他们用依赖于共生矩阵的 swivel 生成嵌入。不同的地方在于,swivel 使用单词作为矩阵的行/列,而他们使用的是从知识图谱收集到的更高级的术语(lexical term)。作者评估了这种方法在英语-西班牙语互译上的表现(就我所知,他们只翻译单词,而没有翻译句子)。他们最好的神经网络能够在 78% 的情况下将正确的词条译文列入最接近的前 5 个译文之内。在 90% 的情况下他们发现前 5 个建议翻译结果的语义确实很接近。

曼海姆大学的研究人员利用基于规则(从统计规律中学习规则)和基于嵌入的方法(将知识图谱嵌入更低维/潜在空间)比较了知识图谱补全方法(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_1.pdf)。他们在评估时使用了三个数据集:其中一个来自 wordnet,另外两个来自 freebase。测试集中的每一个三元组都有两个补全任务:给定关系和宾语,补全主语 (?, p, o);给定关系和主语,补全宾语 (s,p,?)。他们评估了 RuleN 和 AMIE 这两种基于规则的方法,和 TransE、RESCAL 和 HolE 这几种基于嵌入的方法。总体而言,作者发现基于规则的方法更加精确。根据这些结果,他们还建立了一个优于其他方法的集成方法。

苏黎世大学的研究人员使用多任务方法将知识图谱和文档嵌入结合起来,以改善预测和分析任务,他们将该研究称为 KADE(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_2.pdf)。在 Kade 中,作者为文档和三元组创建一个共同的嵌入空间,目的是在不丢失原始嵌入特征的情况下,实现可以对接不同模型(图节点嵌入和文档嵌入)的嵌入策略。这项工作有着极大的潜力,它可以用从文档中提取出的更多三元组补全知识图谱,因为它在同一个向量空间中既表示三元组也表示文档。

知识图谱、语义科学和可重复性研究

值得一提的是有一个围绕语义科学的研讨会(SemSci)。这个主题就很有趣了,因为科学研究是产生新知识的引擎,但知识生成的输出仍是为了人类需求而优化的。SemSci 研讨会的愿景是向知识图谱提供此类科学知识。

研讨会由 Paul Groth 发起,他通过实验方法的自动化地提高了实验的可重复性。在他看来,应该由机器和机械臂自动从来源收集知识以进行实验。Paul 的研究表明实验室中使用的很多方法都可以通过调用 API 实现自动化。Paul 的幻灯片地址:https://www.slideshare.net/pgroth/the-challenge-of-deeper-knowledge-graphs-for-science。Yolanda Gil 做了相关的演讲,介绍了她在利用 AI 实现自动发现方面的研究(幻灯片见下图)。Yolanda 认为 AI 可以提供系统化、正确且无偏差的科学知识生成方法,更别说是更好地报告科学实验的结果了。在 Yolanda 展示的生态系统中,AI 可以提出假设,并寻找证明这种假设的方式——而这一切都是自动的。

其他关于这个主题的有趣讨论还有:

WhyIs:由 Jim McCusker 提出,允许用户与认知智能体交互,该智能体靠知识、目标和数据(纳米出版物)提供有用的答案和解释。Jim 将他的系统描述为一个用于知识管理、交互和推断的框架。

  • 项目演示:https://redrugsdev.tw.rpi.edu/

  • 论文:https://semsci.github.io/SemSci2018/papers/6/SemSci_2018_paper_6.pdf

证据提取(Evidence Extraction):Gully Burns 围绕从已经公开的研究中提取支持分子相互作用的数据提出了一项很酷的研究工作。这项工作用到在 INTACT 数据库中提到过的 2K 开放权限的论文,从 PDF 文件中提取图像(通过查看低密度单词区域实现)并用了「YOLO」方法进行子图识别。根据不同等级的准确率将子图分为子类(准确率为 97% 的是组织学图像,准确率为 40% 的是图表)。

社会语义网与隐私

Tim Berners Lee 在今年的 ISWC 上告诉我们 Solid 已经成为「语义网去中心化」(Decentralizing the Semantic Web)研讨会的一部分内容,该会议是由 Ruben Verborgh 和 Tobias Kuhn 共同组织的。这场会议的目标是创建可以利用知识图谱为用户创造价值的智能网络客户端和去中心化应用(他们接收了 7 篇论文,并将这些论文列在研讨计划中)。该会议的第二部分就有关于 Solid;Solid 背后的理念是要在网络上支持社交活动(很像 Facebook 和 LinkedIn 支持的那些活动),在允许人们与他人交流的同时还拥有自己的数据,使用包括数据形状验证在内的语义网原理,使他们的数据可以和其他用户的个人信息和帖子共存,还可以相互链接。社交 app 必须要获得用户数据的使用许可,这就意味着窃取和贩卖用户社交数据来盈利的掠夺性应用不会像现在这么容易开发。现在正在建立的库是 Solid 生态系统的一部分,它允许开发者通过 Javascript 使用 Solid(用 LDFlex 或 React)。

更多信息请参阅:http://solid.inrupt.com/

此外,就隐私和许可这一话题,Jen Goldbeck 发表了关于提高隐私意识和隐私重要性的讲话。这项演讲的主旨是将「隐私」视为「给予许可」的行为。例如,facebook 需要在特定目的下使用用户数据时,要从他们的用户那里获得许可。语义网技术允许聚合用户的大型的数据图——当然是在获得许可的情况下。考虑许可而不是「隐私」有助于创新,因为许可将讨论的焦点更多地放在了具体行为、个人数据点以及实用主义上。

查询与联合

产业界使用语义网技术(用于主数据管理、推理或其他应用)面对的挑战似乎一直都是查询速度的问题。语义网查询语言是 SPARQL,而数据一般存储在三元组存储中。对于在关系数据库和文档数据库中可以良好运行的查询而言,可能还有一些比 SPARQL 更好的选择。当需要将查询联合到其他系统或者数据要回答的问题存储在多个位置(商业防火墙内部或外部)时,基于 SPARQL 的系统就很合适了。该领域取得的一些进展包括:

Saleem 等人在《LargeRDFBench: A billion triples benchmark for SPARQL endpoint federation》中提出用于联合 SPARQL 查询的新基准,它将数据指标、查询联合指标(包括其他系统不支持的复杂查询)以及性能指标考虑在内。有关指标的相关细节请参阅:https://twitter.com/hdeus/status/1050810577700835329。该作者发现一些联合查询系统返回的查询结果并不完整,但它们并没有让用户知道。用文中所述基准比较的联合查询有:FedX、Splendid、Anapsid 以及 HibisCus。

Janke 等人在《IMPACT ANALYSIS OF DATA PLACEMENT STRATEGIES ON QUERY EFFORTS IN DISTRIBUTED RDF STORES》中提出了一种在多个计算节点上分配大型 RDF 图谱的最佳方法。令人惊讶的是,作者发现对快速的查询处理而言,在所有计算节点上平衡查询工作量比网络流量更重要。这项工作的细节请参阅:https://twitter.com/hdeus/status/1050818304850321411。

原文链接:https://www.linkedin.com/pulse/knowledge-graphs-machine-learning-iswc-2018-trip-report-helena-deus/?from=groupmessage&isappinstalled=0

入门语义网络ISWC 2018机器学习知识图谱
6
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

知识表征技术

知识表示是人工智能的一部分,它关心代理人(agent)如何在决定做什么时使用它所知道的知识, 这是一门将思考作为计算过程的研究。严格来说知识表示和知识推理是同一研究领域密切相关的两个概念,但实际上知识表示也经常用来直接指代包含推理的广义概念,因此在这里沿用后者,即知识表示等价于知识表示与推理。这是一个涉及使用符号来表示一些推定代理人(putative agent)相信的命题集合的研究领域。 但是在另一方面,我们同时不想坚持这些符号必须代表代理人相信的主张。因为实际上代理人可能相信无数的命题,但只有一部分被表示出来。 而弥合所代表的事物与所相信的事物之间的差距将成为推理(reasoning)在知识表示中所承担的责任。因此,推理一般来说是对代表一系列代理所相信的命题符号进行形式化处理,以产生新的表征。 符号需要比它们表示的命题更容易操纵,因此它们必须足够具体,以便我们可以操纵它们(移动它们,拆开它们,复制它们,串起它们) 构建新命题的表征。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

查询语言技术

查询语言泛指向数据库或信息系统查询的各种编程语言。 查询语言必须要能表达所有关系代数所能表达的查询,这样才被称为关系完整的。

关系数据库技术

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语义网络技术

语义网络常常用作知识表示的一种形式。它其实是一种有向图;其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

暂无评论
暂无评论~