学术白作者

未来在知识图谱领域还会面临哪些挑战?

如果未来的智能机器拥有一个大脑,知识图谱就是这个大脑中的知识库,对于大数据智能具有重要意义,将对自然语言处理、信息检索和人工智能等领域产生深远影响。

现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。同时,我们也强烈地感受到,知识图谱还处于发展初期,大多数商业知识图谱的应用场景非常有限,例如搜狗、知立方更多聚焦在娱乐和健康等领域。

根据各搜索引擎公司提供的报告来看,为了保证知识图谱准确率,仍然需要在知识图谱构建过程中采用较多的人工干预。

可以看到,在未来的一段时间内,知识图谱将是大数据智能的前沿研究问题,有很多重要的开放性问题亟待学术界和产业界协力解决。

我们认为,未来知识图谱研究有以下几个重要挑战:

  • 知识类型与表示

知识图谱主要采用(实体1,关系,实体2)三元组的形式来表示知识,这种方法可以较好的表示更多事实性知识。然而,人类知识类型丰富多样,面对很多复杂知识,三元组就束手无策了。

例如,人们的购物记录信息,新闻事件等,包含大量实体及其之间的复杂关系,更不用说人类大量的涉及主观感受、主观情感和模糊的知识了。有很多学者针对不同场景设计了不同的知识表示方法。

知识表示是知识图谱构建与应用的基础,如何合理设计表示方案,更好地涵盖人类不同类型的知识,是知识图谱的重要研究问题。最近认知领域关于人类知识类型的探索也许会对知识表示研究有一定启发作用。

  • 知识获取

如何从互联网大数据萃取知识,是构建知识图谱的重要问题。目前已经提出各种知识获取方案,并已经成功抽取出大量有用的知识。但在抽取知识的准确率准确率和效率方面,都仍不尽如人意,有极大的提升空间。

  • 知识融合

从不同来源数据中抽取的知识可能存在大量噪声和冗余,或者使用了不同的语言。如何将这些知识有机融合起来,建立更大规模的知识图谱,是实现大数据智能的必由之路。

  • 知识应用

目前大规模知识图谱的应用场景和方式比较有限,如何有效实现知识图谱的应用,利用知识图谱实现深度知识推理,提高大规模知识图谱计算效率,需要人们不断锐意发掘用户需求,探索更重要的应用场景,提出新的应用算法。

这既需要丰富的知识图谱技术积累,也需要对人类需求的敏锐感知,找到合适的应用之道。

整体而言,知识图谱领域的发展将会呈现以下趋势:

  • 特色化

构建大规模知识图谱多基于Web信息、知识库:国外以Web开放信息为主、结构化知识库为辅快速构建大规模、跨领域知识图谱,如Google 基于Web开放资源、知识库(维基百科、Freebase等)采集信息并构建知识图谱;国内早期采用该类方法构建并通过增加中文特性扩充语义范畴、满足用户需求。

但限于中英文信息处理差异性,当前中文知识图谱构建多基于中文知识百科整合Web开放信息构建特色垂直型中文百科知识图谱及其应用。

  • 开放化

大规模知识图谱多依赖开放域数据((半)结构化数据)抽取知识(如Freebase,CN-DBPedia)并基于Web传播但当前开放度较低(尤其是商用知识图谱),不利于知识图谱构建、垂直应用落地,与其开放、互联初衷相悖。

新近出现的开放知识图谱社区(Open KG)制定协议规范(遵循商业规则、知识产权、数据开放许可协议等),通过开源软件方式在保障各方权益前提下开放知识图谱以实现整体利益最大化:基于关联数据技术实现多知识图谱关联,基于知识图谱链接封闭域数据与开放域数据(有效弥补封闭域数据知识不完全缺陷),提供API方便用户访问,以发现、共享知识并增加其价值。

  • 智能化

为更好发挥现有知识图谱知识表达、知识资源优势,需与其他技术(信息推荐、事理图谱、机器学习深度学习等)融合以提升应用智能性:中文知识图谱个性化推荐系统利用大规模知识图谱中概念、实体间超链关系度量任意词条间语义关联并结合显式语义分析模型实现用户与项目(用两组标签分别描述)间精准推荐;表示事件逻辑关系的事理图谱辅助知识图谱定位、拓展事态进程并可用于智能推荐、常识推理等。

工业界基于大数据知识图谱人工智能机器学习等技术构建机器智脑,通过知识规则或深度学习模型积累知识、经验以模拟、抽象人类智慧,提升商业应用可行性及机器智能性。

基于分析,我们用Trend analysis分析知识图谱领域内的研究热点。通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题有:

  • conceptual graph

  • parallel algorithm

  • knowledgerep resentation

  • grapht heory

  • knowledge base

知识图谱领域的热点趋势分析

根据Trend analysis的分析结果我们可以发现,conceptual graph是当前的热门话题之一,20世纪90年代开始其研究热度始终保持在Top 1,论文发表数量也远超其他研究热点,之后话题热度虽然经历了一定的变化,但目前的话题热度也较高。

从Trend analysis我们还可以看到,知识表示也在该领域的热点话题之列。知识表示是指把知识客体中的知识因子与知识关联起来,便于人们识别和理解知识。知识表示学习则主要是面向知识图谱中的实体和关系进行表示学习。

使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。知识表示的代表模型有距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型和翻译模型等。

蒙彼利埃大学的Marie-Laure Mugnier教授是该领域的代表学者,她于1992年发表的“Extensions of simple conceptualgraphs: the complexity of rules and constraints”一文系统地研究了通过限制约束和/或规则的形式而获得的某些特定案例的复杂性,提出了基于规则和约束模型的一系列扩展,将图同态作为基本操作。

知识图谱作为人工智能技术中的知识容器和孵化器,会对未来AI领域的发展起到关键性的作用。

无论是通用知识图谱还是领域知识图谱,其构建技术的发展和对应用场景的探索仍然会不断的持续下去。知识图谱技术不单指某一项具体的技术,而是从知识表示、抽取、存储、计算、应用等一系列技术的集合。

随着这些相关技术的发展,我们有理由相信,知识图谱构建技术会朝着越来越自动化方向前进,同时知识图谱也会在越来越多的领域找到能够真正落地的应用场景,在各行各业中解放生产力,助力业务转型。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业知识图谱
1
相关数据
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

关联数据技术

关联数据是一组用来描述用户任务运行环境以及在区域中连接用户任务方式的信息。用户任务是与用户定义的事务相关的任务,或与 CICS® 提供的事务相关的任务。CEMT 是通常由操作员启动的用户启动任务示例,CSMI 是由系统代表用户启动事务启动的任务示例。

表示方案技术

表示世界/问题的方法/方案

推荐文章
暂无评论
暂无评论~