从专家系统到大数据知识工程,「千人计划」专家吴信东如何为数据冠以知识

近日,机器之心采访了明略数据首席科学家、科学院院长吴信东教授,吴教授一直专注于知识工程方面的研究,并从专家系统大数据时代经历了技术的变迁与发展。在本文中,我们将着重介绍专家系统大数据环境下的知识工程,它们的共性是从专家或数据中提取知识,并用于进一步的推理与预测。吴信东教授在 10 月 15 到 16 号的 AIIA 人工智能开发者大会将会更详细地介绍大数据知识工程。

吴信东教授是国家「千人计划」特聘专家、长江学者、IEEE & AAAS Fellow,他早期关注于专家系统,也就是知识工程的应用实践。而随着机器学习大数据的流行,他领导的科技部重点研发项目 BigKE 将「大数据」引入了「大知识」。整体而言,大数据知识工程(BigKE)也就是从多种异构数据源抽取碎片化的知识,并将这些知识融合为整体以提供进一步的知识服务。

专家系统

专家系统,即从领域专家获取知识,并将这种知识迁移到计算机系统以自动实现某些专家能力求解的功能。对于基于专家系统的知识工程,其可以定义成为对应用问题求解所进行的知识的获取、表达和推理。它主要包含三阶段,首先知识的获取就需要与领域专家交流,并获取专家在该领域解决特定问题的知识。其次需要将获取的知识表达出来,这一般是形式化的表达,例如用逻辑表示和知识图谱表示等。最后需要基于这种表示对问题进行求解,也就是进行知识推理。

吴信东教授表示目前其实还有很多解决方案在实践中会使用专家系统,只不过它会作为大系统的组成部分,其它如计算机视觉深度学习知识图谱等组成部分可能更加引人注意。此外,专家系统完成的任务相对于端到端的方法会更宽广。例如深度学习方法更擅长识别和分类等任务,它关注非常精细的决策。而专家系统会尝试解决整个领域需要专业知识的决策,它可能会涉及多种任务。

正如吴教授所说,专家知识在各种系统都充当着非常重要的作用,不论是针对特定领域问题还是大数据。例如对于机器学习来说,很多时候先验知识都是一种专家知识,而卷积神经网络等新型模型同样也应用了专家知识,因为我们假设了图像等二维数据只有在局部才是相互影响的。

但是纯粹的专家系统却有很多局限性,它无法兼容当前的大数据环境。首先大数据具有三大显著特点,即海量数据、数据质量参差不齐、个性化属性,这些都是传统专家系统无法解决的,因此也就有了吴教授负责的国家重点研发计划重点专项项目——大数据知识工程(BigKE)。

大数据知识工程

大数据时代,如何利用知识工程的思想和方法获取、表示、推理和解释大数据,并将挖掘出的知识形成解决问题的大知识系统,这就是大数据知识工程(BigKE)最希望完成的目标。

相比于传统专家系统,基于大数据的大知识系统更关注提取各种数据中的碎片化知识,并与领域的专家知识相结合而构建整个系统。大数据知识工程降低了对专家知识的依赖性,并希望从碎片化的信息中抽取群智知识。吴信东教授表示,从整体而言,BigKE 可以分为三阶段,即多源异构数据中的碎片化知识建模、从局部知识到全局知识的碎片化知识融合、个性化知识导航。

包含三阶段的 BigKE 框架,第一阶段通过在线学习对碎片化知识进行建模,第二阶段实现非线性知识融合,第三阶段按需求提供知识服务。图片来源于吴教授的论文《Knowledge Engineering with Big Data 》。

碎片化知识建模

BigKE 首先会采用合适的模型对各种数据类型进行建模,相当于从非结构化数据中抽取结构化的知识。这一建模过程主要会采用在线学习的模式,即持续不断地一点点学习不同的知识碎片。此外,从多种数据源中抽取的碎片化知识对评估数据的可靠性和数据质量有着重要的作用。如上所示,BigKE 会同时考虑数据流与特征流,而对流数据的处理需要选择动态模型来刻画数据特征,因此动态的知识提取是非常重要的方面。

在线学习继续向后输出具有语义信息的特征,而数据的可靠性同样也会在后面得以评估。之所以需要评估,主要是因为我们无法对所有数据进行建模,而且不同数据来源有着良莠不齐的质量。因此我们可以对数据来源进行排序和评价,获得数据的精确度和可靠性,并在数据筛选时选择较高质量的数据。因此相比于一般的在线学习,关注特征流的在线学习不仅关注数据处理顺序,同时关注更有效和优质的特征空间。

吴教授表示对知识建模的在线学习可以是各种优秀的机器学习深度学习模型。例如我们希望从文本中抽取出主体的属性,那么就能使用基于深度学习命名实体识别抽取知识,而当我们希望从图像中抽取出主要物体,那么又可以使用卷积神经网络等方法抽取知识。这里不同类型的数据会有合适的方法进行处理,并抽取出我们想要的知识。

非线性知识融合

在从不同的数据源抽取必要的知识后,如何融合这些不同方面的知识就显得非常重要。为了将离散的局部知识融合为全局知识,BigKE 采用知识图谱表示碎片化知识,其中局部知识可以表示为完整知识图谱的一个子图。

吴教授说:「知识图谱的整体概念比较简单,它主要包含两部分。首先第一部分是节点,节点一般涉及到概念,比如人、物体和事件等,其次是连接,它会连接不同的概念。所以从本质上来说,任何能以概念及概念间的连接来表达的问题都能视为知识图谱。」此外在知识图谱中,连接会分为显性连接和隐性连接,显性连接可以是层次关系或亲友关系等,而隐性连接为两个概念没有直接关系,但计算相似度等手段可以建立新的隐性关系。在知识图谱里加上这些非线性属性以后,能够将局部知识与全局知识更好地聚合在一起,并实现更进一步的知识推理。

BigKE 采用知识图谱表示和融合局部知识有非常多的优势,首先来自各种数据源的知识有独特的属性,它们间的关系是复杂和演化的,因此传统的线性融合方法无法反映出局部知识之间的联系。而知识图谱为局部知识和全局知识提供了统一的表示形式,它们的概念都能表示成节点,而各种关系都能表示成连接。其次,知识图谱节点之间的路径可以视为不同知识片段之间的可能关联,这为个性化服务的实现提供了可能。

知识推理

BigKE 的目标是根据用户需求提供服务,也就是根据已搭建的知识图谱进行知识推理。对于前面搭建的知识图谱,其节点和边分别对应于知识单元和知识之间的语义关联,而提供知识服务可以视为搜索两点之间的最佳路径。此外,吴教授表示知识推理同样可以实现个性化的推荐,并为个性化的查询提供精确的导航服务。因此针对个性化查询,BigKE 会在知识图谱直接进行推断,从而预测用户可能的行为。

吴信东教授将于 10 月 15 到 16 号在苏州国际博览中心举办的 AIIA 人工智能者开发大会详细地介绍大数据知识工程。报名链接:http://www.huodongxing.com/event/3458284296300?utm_source=%E5%8F%91%E7%8E%B0%E6%B4%BB%E5%8A%A8%E9%A1%B5&utm_medium=&utm_campaign=eventspage

理论知识工程明略数据
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

推荐文章
暂无评论
暂无评论~