王昊奋同济大学

知识图谱在多模态大数据时代的创新和实践 | WAIC达观数据论坛

在2020年世界人工智能大会云端峰会中,达观数据与浦东青联联合举办了“智能时代,语你同行”行业论坛,围绕语言智能,在云端与多位行业专家与学者展开了一场精彩线上交流盛宴。

同济大学特聘研究员王昊奋教授围绕知识图谱详细介绍了多模态知识图谱的构建、以及大规模知识推理、多策略知识问答等关键技术,并就行业知识图谱在金融、工业互联网、泛传媒、抗疫等领域的实践进行了详细介绍。

以下为演讲内容:

大家好!非常荣幸受邀来到2020年世界人工智能大会由达观数据主办的智能时代 “语”你同行的云端高峰论坛。在经历了互联网和移动互联网的高速发展后,我们积累了很多文本大数据,此外也拥有了大量语音、图像、视频等多模态数据。

面对这样的数据增长与丰富,我们也悄然进入了人工智能的下半场。上半场的人工智能多由感知智能主宰,能够做到能听会说,能看会认。下半场则不满足于模拟人的各种感知能力,而要去提升其认知能力。也就是说,我们开始研究人类大脑并探索认知的机理,从而做到具备能理解、会思考、可解释等特征的认知智能。

2017年国务院发布了新一代人工智能发展规划,科技部、工信部以及国家各部委纷纷发布了各种重大专项指南,布局新一代人工智能。其中有很多词被反复提起,认知出现16次,知识图谱则出现13次。同时大家非常关注在金融、客服、教育、医疗等各个行业的落地。

图1 人工智能的下半场:认知智能

自从2012年谷歌率先提出知识图谱依赖,各大互联网公司和科研院所已经把知识图谱摆到与深度学习同样重要的地位,且作为认知智能的关键技术来进行深入研究。那么知识图谱能够做什么?简而言之两件事情:第一让机器更好地理解数据,第二让机器更好地解释现象。

围绕我们本次主题,知识图谱在各类深度学习的技术中也开始与各种感知智能技术做深入结合,比如图像识别技术、语音识别技术等。另一方面,知识图谱的动态性和多模态性也慢慢成为一种趋势。

知识图谱有完整和清晰的生命周期,主要包含三部分:

  • 首先,解决知识从哪里来以及知识图谱如何进行高效构建?
  • 其次,知识如何用?在原有知识的基础上,如何进一步发现隐含知识,从而增加额外价值;
  • 最后,获得完成的知识图谱后,如何在各种行业和互联网应用中做大规模的智能化赋能是关键。

图2 多模态知识图谱构建方法比对

对于知识(尤其是多模态)图谱的构建,传统的做法把将不同模态分别完成抽取并通过图谱融合来形成最后的多模态图谱。如图2左半部分所示,先基于文本和图像进行信息抽取,对于抽取得到的多个特定模态图谱融合成多模态知识图谱

这样构建形成的多模态图谱存在以下问题:源头上并没有考虑不同模态特征之间的依赖和对应关系,使得最终融合的结果无法很好地刻画多模态数据本身蕴含的各种关联。因此,我们更进一步,使得图谱本身一开始就具备多模态的特性。所构建的多模态图谱能帮助可帮助理解多模态的数据,完成可视关系识别和跨模态实体链接等任务,并进一步应用在问答、搜索、可视分析和辅助决策等方面。

知识图谱到多模态图谱

如何从传统图谱拓展到多模态图谱?对于图谱中每一个实体或概念,关联相对应的图象。我们希望收集到全天候不同角度、不同方位、以及不同主题下的内容,使得更好的刻画多模态知识,尤其是可视化的关系。

由于初始关联的图像比较少,我们进一步采用近似K近邻来做图像扩展,保障相关性的同时也达到多样性的目的从而更完整的表达对应的图谱节点对象。

图3 从KG到多模态KG:图像选取与扩充策略

长尾可视关系识别

图4 可视关系长尾性和可视关系检测

给定一张图片,我们可以识别到很多对象,在此基础上,进一步可以检测不同对象之间的关系。

如图4所示,不同对象对应不同颜色的线框:

  • 第二张图里面的红色框代表人,绿色框是摩托车,而两者之间的可视关系是人坐在摩托车上,即 person-on-motorcycle;
  • 第三张中的绿框代表的是头盔,可视关系则是人佩戴头盔,即person-wear-helmet;
  • 最后一张中红框识别的是摩托车,绿框是轮子,则识别的可视关系是motorcycle-has-wheel等。
图5 可视关系检测典型技术可视关系识别是视觉场景理解的关键之一,但是由于可视关系的稀疏性,大量长尾关系的有效预测往往具有很大的难度。计算机视觉顶级会议CVPR 2017中发表的一项工作则,借鉴知识图谱表示学习技术,对经典的基于翻译的表示学习方法TransE进行扩展为VTransE,将图片的可视特征空间映射到关系空间使得在映射后的语义空间中头实体和可视关系的向量和接近于尾实体向量。

这种做法虽然简单易实现,但无法避免TransE在应对一对多、多对多等关系预测时的不足。之后CVPR 2019的改进工作通过学习动态树结构的组合来刻画视觉上下文,并基于此来预测可视关系,从而一定程度上缓解了长尾关系检测难的问题。

图6 长尾可视关系识别:我们的方法

在上述工作的 基础上,我们利用多模态图谱来进一步优化长尾可视关系的识别效果。首先,在特征非常稀疏的情况下,利用各种模态特征之间的交互去做特征的扩充。其次,利用来自不同图像中的对象或关系之间形成的相似图,通过消息传递,进一步缓解数据层面的稀疏。

跨模态实体链接

图7 跨模态实体链接典型架构

实体链接在文本智能处理中被广泛应用,在图7左侧(a)的文本中,对于黄色标记的Michael Jordan,自动消歧并将其关联到篮球之神或著名的机器学习和统计学习专家,这个任务我们称之为叫实体链接。图7左侧(b)扩展了实体链接到多模态场景,即给定一张图片和所对应的文本描述,自动判断图片所包含的对象。

对于跨模态实体链接,往往将图片、文字描述和待链接的词或词组采用不同的神经网络(针对图像采用CNN,而文字采用双向LSTM或其变种)并经过包含模态注意力的上层网络得到的mention表示与通过图谱结构与标签描述结合得到的候选实体表示进行语义匹配排序来完成。


图8 基于多模态交互学习的语义视觉实体链接

我们进一步考虑到不同模态之间的关联关系。在抽取模态特征时考虑图象中不同视觉对象之间的关联,形成一个场景图。同时对于文本描述,也进一步用SOTA模型得到了其中包含的命名实体,这一部分命名实体又作为后续链接的候选项。此外,我们还考虑到模态的注意力机制,使得在选择过程中,既考虑文本模态的特征也考虑视觉特征。


图9 跨模态实体链接示例

如图9所示,姚明与麦迪身穿火箭队队服站在天安门前的照片可以形成左边的场景图,结合文本标题描述,该场景图中的实体(如Man1和Man2)完成了与多模态图谱中的Yao Ming与Tracy Mcgrady的链接。

刚刚讲了多模态图谱的构建,那么有了知识后能进一步做什么呢?为了要发现隐含知识,一件很重要的事情是知识推理,即根据现有知识推出新知识或者新事实。一般来说知识推理有四类:

  1. 第一种是演绎推理,根据前提条件推导出结论,是基于符号逻辑的推理;
  2. 第二种是归纳推理,根据有限的观察现象推导出后背的原理或机制等,各种机器学习都属于归纳推理范畴;
  3. 第三种是溯因推理溯因推理是基于结果反推出原因。往往用于故障发现与诊断时的问题定位和究因分析;
  4. 第四种是类比推理,进行不同类型的对象或空间之间进行映射对齐,在各种文本蕴含或语义相似度计算时被广泛使用。
图10 神经网络方法用于知识图谱推理

在各种知识推理推理任务中,也越来越多地出现了深度学习的身影。首先,知识图谱知识库往往是不完备的,这种情况下我们就希望扩充图谱。知识图谱表示学习,以及最近比较火热的图神经网络都被用于该任务中。

同时,各种循环神经网络+注意力机制的网络或层次化图卷积网络及其扩展被广泛用于需要多跳的复杂知识问答中。但问题在于这些方法是基于统计的推断,仅能完成浅层的推理,无法覆盖全部逻辑演绎的能力,导致本身的可解释性有一定这折损。

图11 神经网络方法用于知识图谱推理(续)

此外,不少工作设计神经网络来完成特定的逻辑推理或公理证明(如图11右侧)。而这些具有语义等价的统计学习可被进一步融合到知识图谱管理系统中,从而同时支持精确的逻辑计算和数据驱动和概率推断(图11左侧)。

深度学习往往需要有大数据的支持。即使在做多模态的问题情况下,很多时候我们面对的都是小数据,数据的稀疏性非常明显。如何利用知识和图谱结构来帮助我们做这样的事情?比如利用知识图谱远程监督学习来支持数据增广和迁移,以及支持更复杂表达能力(如规则等更强的知识)的表示学习都是目前的通过知识图谱来支持深度学习的不同有益尝试。

图12 使用知识图谱解释神经网络中间结果
正如之前提及的,认知智能的可解释性非常关键。为了让深度学习使用的神经网络模型可以在各种辅助决策任务中更好的使用,通过对通过非线性变换得到的中间结果进行解码映射知识图谱中的相应节点,方便人们更好理解。

除了知识推理,另一种多模态情况下的典型应用是问答。问答经历了很多过程,包括上世纪90年代的检索式问答,基于众包社区的问答,以及在个人助理和各种行业中的知识问答。现在我们希望把上述各种互补的技术进行融合来支持不同类型数据上的多策略问答。

具体来说,如图13所示,面对问答对型数据,可采用基于检索的问答技术即IRQA,而面对结构化程度比较好的图谱数据,可采用基于知识库的问答即KBQA,而面对文本或语料库数据,则可采用基于机器阅读理解的问答即MRCQA。

随着预训练模型的普及, 从最早的word2vec/ glove,到后续的上下文感知的模型如ELMO、GPT和BERT等,使得我们在大规模通用语料上训练得到的模型的基础上,在下游任务中(如这里的问答)使用少量的领域数据进行精调来完成。

图13 典型的问答数据和技术范式

同时,每一种问答技术都有其可被使用的必要条件,适用的问题范围,以及相应的优点和不足(具体描述如图14)。为了完成能在真实场景中可用的问答系统,需要采用多策略方式来综合不同问答系统的优点。

图14 多种问答技术的优缺点

多模态知识图谱的典型应用

下面举几个多模态知识图谱的典型应用:

金融证券领域

例如在金融证券领域,一个典型应用是最终控制人识别。这是通过利用散落在各地方的不同源的数据,特别是多模态数据,进行整合后我们可以发现他们之间的蛛丝马迹,并最后找到隐藏在背后的最终控制人。同时也可以应用在信用风险评估和关联交易预警等方面。

工业互联网

在工业互联网中,可以应用在电力系统的故障识别。这其中涉及多学科知识,也有多模态知识,需要通过各种计算得到相应的经验公式结果,同时通过神经网络识别对应的异常,转换对应故障检测和分类问题,应用溯因推理的技术,能够发现可能的原因并推荐相关的检测方案。

我们相信在智能时代“语”你同行的蓝图下,多模态和知识图谱将在金融、客服、教育、医疗等领域发挥更多作用。

达观数据
达观数据

达观数据是一家专注于文本智能处理技术的国家高新技术企业,获得2018年度中国人工智能领域最高奖项 “吴文俊人工智能科技奖”,也是本年度上海市唯一获奖企业。达观数据利用先进的自然语言理解、自然语言生成、知识图谱等技术,为大型企业和政府客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工完成业务流程自动化,大幅度提高企业效率。

产业知识图谱
相关数据
达观数据机构

达观数据是一家专注于文本智能处理技术的国家高新技术企业,先后获得中国人工智能领域最高奖 “吴文俊人工智能奖”、ACM CIKM算法竞赛全球冠军、EMI Hackathon数据竞赛全球冠军等荣誉。利用先进的自然语言处理(NLP)、光学字符识别(OCR)、知识图谱等技术,为大型企业和政府机构提供机器人流程自动化(RPA)、文档智能审阅、智能推荐等智能产品,让计算机协助人工完成业务流程自动化,大幅度提高企业效率。

https://www.datagrand.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

类比推理技术

在两种情况或事件之间感知和使用关系相似性的能力 - 是人类认知的一个基本方面。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

演绎推理技术

演绎推理(英语:Deductive Reasoning)在传统的亚里士多德逻辑中是“结论,可从叫做‘前提’的已知事实,‘必然地’得出的推理”。如果前提为真,则结论必然为真。这区别于溯因推理和归纳推理:它们的前提可以预测出高概率的结论,但是不确保结论为真。 “演绎推理”还可以定义为结论在普遍性上不大于前提的推理,或“结论在确定性上,同前提一样”的推理。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

溯因推理技术

溯因法或溯因推理,是推理到最佳解释的过程。换句话说,它是开始于事实的集合,并推导出其最佳解释的推理过程。有时使用术语溯因意味生成假设来解释观察或结论,但是前者定义在哲学和计算二者中更常见。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

归纳推理技术

归纳法或归纳推理(Inductive reasoning),有时叫做归纳逻辑,是论证的前提支持结论但不确保结论的推理过程。它基于对特殊的代表(token)的有限观察,把性质或关系归结到类型;或基于对反复再现的现象的模式(pattern)的有限观察,公式表达规律。例如,使用归纳法在如下特殊的命题中: 冰是冷的。 弹子球在击打球杆的时候移动。 推断出普遍的命题如: 所有冰都是冷的。 所有弹子球都在击打球杆的时候移动。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

实体链接技术

在自然语言处理中,实体链接,也称为命名实体链接(NEL)、命名实体消歧(NED)。实体链接的任务是为文本中提到的实体(例如着名的个人,地点或公司)分配唯一的身份。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

语义等价技术

在计算机元数据中,语义等价是来自不同词汇表的两个数据元素包含具有相似含义的数据的声明。

远程监督技术

该方法由 M Mintz 于 ACL2009 上首次提出,与传统预先定义关系类别不同,Distant Supervision 通过将知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。

同济大学机构
推荐文章
暂无评论
暂无评论~