现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。同时,我们也强烈地感受到,知识图谱还处于发展初期,大多数商业知识图谱的应用场景非常有限,例如搜狗、知立方更多聚焦在娱乐和健康等领域。
根据各搜索引擎公司提供的报告来看,为了保证知识图谱的准确率,仍然需要在知识图谱构建过程中采用较多的人工干预。
可以看到,在未来的一段时间内,知识图谱将是大数据智能的前沿研究问题,有很多重要的开放性问题亟待学术界和产业界协力解决。
我们认为,未来知识图谱研究有以下几个重要挑战:
知识类型与表示
知识图谱主要采用(实体1,关系,实体2)三元组的形式来表示知识,这种方法可以较好的表示更多事实性知识。然而,人类知识类型丰富多样,面对很多复杂知识,三元组就束手无策了。
例如,人们的购物记录信息,新闻事件等,包含大量实体及其之间的复杂关系,更不用说人类大量的涉及主观感受、主观情感和模糊的知识了。有很多学者针对不同场景设计了不同的知识表示方法。
知识表示是知识图谱构建与应用的基础,如何合理设计表示方案,更好地涵盖人类不同类型的知识,是知识图谱的重要研究问题。最近认知领域关于人类知识类型的探索也许会对知识表示研究有一定启发作用。
知识获取
如何从互联网大数据萃取知识,是构建知识图谱的重要问题。目前已经提出各种知识获取方案,并已经成功抽取出大量有用的知识。但在抽取知识的准确率、准确率和效率方面,都仍不尽如人意,有极大的提升空间。
知识融合
从不同来源数据中抽取的知识可能存在大量噪声和冗余,或者使用了不同的语言。如何将这些知识有机融合起来,建立更大规模的知识图谱,是实现大数据智能的必由之路。
知识应用
目前大规模知识图谱的应用场景和方式比较有限,如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率,需要人们不断锐意发掘用户需求,探索更重要的应用场景,提出新的应用算法。
这既需要丰富的知识图谱技术积累,也需要对人类需求的敏锐感知,找到合适的应用之道。
整体而言,知识图谱领域的发展将会呈现以下趋势:
特色化
构建大规模知识图谱多基于Web信息、知识库:国外以Web开放信息为主、结构化知识库为辅快速构建大规模、跨领域知识图谱,如Google 基于Web开放资源、知识库(维基百科、Freebase等)采集信息并构建知识图谱;国内早期采用该类方法构建并通过增加中文特性扩充语义范畴、满足用户需求。
但限于中英文信息处理差异性,当前中文知识图谱构建多基于中文知识百科整合Web开放信息构建特色垂直型中文百科知识图谱及其应用。
开放化
大规模知识图谱多依赖开放域数据((半)结构化数据)抽取知识(如Freebase,CN-DBPedia)并基于Web传播但当前开放度较低(尤其是商用知识图谱),不利于知识图谱构建、垂直应用落地,与其开放、互联初衷相悖。
新近出现的开放知识图谱社区(Open KG)制定协议规范(遵循商业规则、知识产权、数据开放许可协议等),通过开源软件方式在保障各方权益前提下开放知识图谱以实现整体利益最大化:基于关联数据技术实现多知识图谱关联,基于知识图谱链接封闭域数据与开放域数据(有效弥补封闭域数据知识不完全缺陷),提供API方便用户访问,以发现、共享知识并增加其价值。
智能化
为更好发挥现有知识图谱知识表达、知识资源优势,需与其他技术(信息推荐、事理图谱、机器学习、深度学习等)融合以提升应用智能性:中文知识图谱个性化推荐系统利用大规模知识图谱中概念、实体间超链关系度量任意词条间语义关联并结合显式语义分析模型实现用户与项目(用两组标签分别描述)间精准推荐;表示事件逻辑关系的事理图谱辅助知识图谱定位、拓展事态进程并可用于智能推荐、常识推理等。
工业界基于大数据、知识图谱、人工智能、机器学习等技术构建机器智脑,通过知识规则或深度学习模型积累知识、经验以模拟、抽象人类智慧,提升商业应用可行性及机器智能性。
基于分析,我们用Trend analysis分析知识图谱领域内的研究热点。通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题有:
conceptual graph
parallel algorithm
knowledgerep resentation
grapht heory
knowledge base
知识图谱领域的热点趋势分析
根据Trend analysis的分析结果我们可以发现,conceptual graph是当前的热门话题之一,20世纪90年代开始其研究热度始终保持在Top 1,论文发表数量也远超其他研究热点,之后话题热度虽然经历了一定的变化,但目前的话题热度也较高。
从Trend analysis我们还可以看到,知识表示也在该领域的热点话题之列。知识表示是指把知识客体中的知识因子与知识关联起来,便于人们识别和理解知识。知识表示学习则主要是面向知识图谱中的实体和关系进行表示学习。
使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。知识表示的代表模型有距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型和翻译模型等。
蒙彼利埃大学的Marie-Laure Mugnier教授是该领域的代表学者,她于1992年发表的“Extensions of simple conceptualgraphs: the complexity of rules and constraints”一文系统地研究了通过限制约束和/或规则的形式而获得的某些特定案例的复杂性,提出了基于规则和约束模型的一系列扩展,将图同态作为基本操作。
知识图谱作为人工智能技术中的知识容器和孵化器,会对未来AI领域的发展起到关键性的作用。
无论是通用知识图谱还是领域知识图谱,其构建技术的发展和对应用场景的探索仍然会不断的持续下去。知识图谱技术不单指某一项具体的技术,而是从知识表示、抽取、存储、计算、应用等一系列技术的集合。
随着这些相关技术的发展,我们有理由相信,知识图谱构建技术会朝着越来越自动化方向前进,同时知识图谱也会在越来越多的领域找到能够真正落地的应用场景,在各行各业中解放生产力,助力业务转型。