长篇大论中抓取精华,语音实时生成知识图谱,这个系统可谓是首个

基于文本生成知识图谱的研究很常见,但是基于语音生成知识图谱,这算是第一家。

在这个信息飞速发展的时代,数据呈爆炸式增长。而互联网信息的多元性、异构性、结构松散等特点,给人们有效获取信息和知识带来了挑战。

知识图谱(Knowledge Graph) 凭借强大的语义处理能力,为互联网时代的知识化组织和智能应用奠定了基础,并被广泛应用于智能搜索、知识问答、舆情分析等领域。

然而在现有的技术中,大部分研究集中在从文本转化到图谱的过程,却忽略了从语音实时转换到图谱的研究。

本文将介绍一篇关于从语音到图谱构建的论文,可以说是该领域的首个相关研究。这篇来自明略科学院知识工程实验室的论文已被人工智能国际顶会 IJCAI 2020 Demonstrations Track 接收。


论文链接:https://www.ijcai.org/Proceedings/2020/0777.pdf

论文简介

近年来语音接口受到极大欢迎。以智能音箱为例,截至 2019 年,估计有 35%的美国家庭至少配备了一个智能音箱。目前尽管存在成熟的语音识别工具包和商业语音转录系统,但面对长篇大论的交谈中,人们仍难以集中精力抓取其中的关键所在。而知识图谱可以追溯到早期的专家系统研究和语义网络,它提供了一种方法,这种方法可以可视化演讲者的关键思想。

对于知识图谱的概念有不同的定义。这篇论文遵循此定义:「知识图谱作为一种数据表示工具,是对实体、属性、概念以及它们之间的关系进行建模」。为了从语音中构造知识图谱,有两个关键组件是必须的「实体 - 关系 - 实体」三元组和「实体 - 属性」对,如图 1 所示。
 
在此论文中,来自明略科技的研究者们提出了 HAO 图谱,它基于 HAO 智能,而 HAO 智能整合了人类智能(HI),人工智能(AI)和组织智能(OI),实现了中文文本和语音知识图谱的实时生成和可视化,填补了本领域的空白。

图 1:知识图谱可视化示例

该论文主要有三大贡献:

  • 该系统是已知首个公开发布的从语音中构建知识图谱的系统;

  • 该系统设计并实现实时的语音图谱架构,能够根据演讲者的主题在图谱之间切换;

  • 该系统还可以从开放的中文篇章中生成知识图谱


系统架构

HAO 图谱系统到底是怎样实现的?我们来看看它的技术架构。

图 2:系统整体架构图

语音转文本三大模块

首先,需要将语音转换为文本,这需要三大模块。

Monitor:语音是根据 WebSocket 协议从前端 HTML 页面传输的。该模块通过端口实时监控前端页面发送的二进制语音流信号数据,并将数据保存在缓冲池中。当缓冲池数据大于 16000 字节时,缓冲池中的二进制语音流数据传输到后续的「语音转文本」模块中。

ASR 模块:该模块将接收到的二进制语音流数据转换为无标点的文本,并以多线程的方式将其发送到前端,得到「语音转文本」显示结果。缓冲池中的无标点文本则根据上下文信息进行校对和更正,修正后的结果被传递给后续的「文本标点」模块。 

标点模块:该模块通过在中国日报语料库上基于 BERT 训练的模型,将接收到的无标点文本数据转换为带有标点符号的文本数据,并将转换结果保存在文本缓冲池中。此缓冲池用于缓存已加标点的文本,这是因为只有在识别出完整的句子后,该句子才会被发送到后续的「知识图谱构建」服务中,因此该模块会将完整的句子发送到知识图谱构建阶段,最后一部分没有标点符号的文本被缓存。如果带标点的文本都是完整的句子,并且句号在文本的末尾,则缓冲池被清空。

知识图谱构建阶段

将语音转换成文本后,现在进入知识图谱构建阶段。该论文介绍了基于文本构建知识图谱所需的 5 个关键步骤:

预处理:这一步骤包括了去除提取文本中的特殊字符,利用基于 BERT 的序列标注模型进行中文分词和词性分析,通过基于中心语驱动的短语结构语法的神经网络模型进行依存句法分析。这些模型均在 Penn Chinese Treebank 数据集上训练得到。

分块(Chunking):根据预处理阶段词性标注和依存关系的结果,按照规则对名词词性(如专有名词 NR 和其他名词 NN 等)进行分组组合。规则包括但不限于两个连续的专有名词(组)、专有名词后接其他名词、专有名词用标点符号或连词隔开。值得一提的是,该合并过程是递归执行的。例如,「人工智能,大数据,及物联网技术」这个短语中包含了三个专有名词、一个标点符号和一个连词。在分块步骤中,这些词被递归地合并为「人工智能,大数据及物联网技术」,并产生最终的分块结果。

指代消解:该模块基于分块得到的结果,将文本中待分析的代词替换为指代消解模型的结果(即将代词替换为所指的名词)。

信息提取:在进行信息提取时,利用预处理步骤中解析的依存关系,将每个动词短语作为候选三元组的谓词,并将其作为根节点遍历与其相关的名词短语。然后使用基于规则的方法提取三元组。对于三元组的主客体,抽取规则包括但不限于:关系的主体(nsubj)作为三元组主语,关系的主体(dobj)作为三元组宾语。

后处理:最后,将上一步骤中获得的三元组进行后处理操作,如删除停用词,将所有三元组集成起来并输出。

主题切换

为了实现生动的可视化,该研究设计了一个基于图数据库数据和上游模块返回结果来检测主题变化的模块。如果当前内容与之前的内容属于同一主题,则图数据库中与该主题相关的所有实体关系都将发送到前端进行显示。如果当前内容和前面的内容不属于同一主题,则只有当前内容的图结果显示在首页上。

知识图谱抽象化

在基于语音生成知识图谱的过程中,语速快导致节点和边的数量急剧增加。因此,从完整语音中生成可视化的知识图谱变得非常复杂,这种情况甚至比原始文本更难理解。为了解决上述问题,该研究通过以下三个步骤对知识图谱进行抽象化处理:
 
关键集提取:首先,对于数据集 NLPCC 2017 corpus 中的所有文档集合,通过选择 TF-IDF 最高的词语,基于完全的语音转录文本获得一组关键词。另外,将中心度较高的节点选入关键节点集中。 

抽象过滤:其次,应用规则从语音系统中获取抽象化的知识图谱。使用关键词和关键节点集合之间的交集对「实体关系三元组」和「实体属性对」进行过滤。

组件选择:最后,从知识图谱中选出最大连通分量。这一步很关键,因为小分量通常没有明确的含义,如下图 3 左上角所示。

图 3:在执行「组件选择」步骤之前,基于长语音构建的知识图谱及其抽象(彩色部分)。

最后,作为首个基于语音实时生成知识图谱的系统,HAO 图谱的效果如何呢?明略科技进行了满意度调查。

在今年 1 月举办的 2000 人左右的会议上,该系 统实时地从两小时的谈话中提取知识图谱。满意度调查显示,61.54% 的受访者认为 HAO 图谱有助于更清楚地了解谈话内容,41.76% 的受访者认为该系统可以缓解认知疲劳。超过 65% 的受访者对该系统是否加强了沟通方面给予了 5/5 星级的评价。

理论IJCAI明略数据语音识别知识图谱
2
相关数据
专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

流数据技术

流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

依存句法分析技术

依存句法分析的过程是分析句子的语法结构,建立“头”单词和修改这“头”单词的单词之间的关系。

语义网络技术

语义网络常常用作知识表示的一种形式。它其实是一种有向图;其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。

明略科技机构

明略科技作为更具行业“Know-how”的新一代数据中台先行者,致力打通感知与认知智能,连接人、机器、组织的智慧,帮助企业构建人机协同的行业大脑,加速企业数字化转型。明略科技致力于探索新一代人工智能技术在知识和管理复杂度高的行业中的落地。打通感知与认知智能,通过多模态人工智能和大数据技术,连接人、机器、组织的智慧,最终实现具有分析决策能力的高阶人工智能应用,让组织内部高效运转,让更多的人和资源投入到创新的工作中去。明略科技始终以数据安全和隐私保护为最高纲领,立志成为全球企业级人工智能的领跑者,创造人机同行的美好世界。

https://www.mininglamp.com/
物联网技术技术

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

指代消解技术

在计算语言学中,共参考分辨率是一个在话语中被充分研究的问题。为了得出对文本的正确解释,或者甚至估计各种提到的主题的相对重要性,代词和其他引用表达必须与正确的个体相关联。目的解决指代的算法通常首先查找与引用表达式兼容的最近的一个之前个体。

分块技术

将标注好词性的句子按句法结构把某些词聚合在一起形成比如主语、谓语、宾语等等。

推荐文章
暂无评论
暂无评论~