郭达雅、唐都钰、段楠、周明作者自然语言计算组来源

机器推理系列第四弹:基于推理的多轮语义分析和问答

编者按:自然语言处理的发展进化带来了新的热潮与研究问题。基于一系列领先的科研成果,微软亚洲研究院自然语言计算组将陆续推出一组文章,介绍机器推理(Machine Reasoning)在常识问答、事实检测、自然语言推理、视觉常识推理、视觉问答、文档级问答等任务上的最新方法和进展。此前我们介绍了机器推理的系列概览,机器推理在常识问答和事实检测任务中的应用,以及跨语言预训练,本文是该系列的第四篇文章。

推理是自然语言处理领域非常重要且具有挑战性的任务,其目的是使用已有的知识和推断技术对未见过的输入信息作出判断(generate outputs to unseen inputs by manipulating existing knowledge with inference techniques)[1]。在本文中,我们介绍机器推理在多轮语义分析和问答任务的最新方法和进展

对话中的多轮问答(conversational question answering)和语义分析(semantic  parsing)是自然语言处理领域的两个核心问题,对语音助手、聊天机器人和搜索引擎等应用都至关重要[2]。

多轮问答的目的是在交互式场景中正确回答自然语言问题。以图1的基于知识图谱的多轮问答为例,人们常常省略实体(如第二个问句),或省略意图(如第三个问句),使对话更加简洁和连贯。类似地,在图2的基于表格的多轮问答样例中,我们可以看到同样的省略现象。因此,有效理解对话历史对多轮问答系统至关重要。

图1:基于知识图谱的多轮问答和语义分析示例
图2:基于表格的多轮问答和语义分析示例

语义分析是解决问答任务的一个理想方向,其目的是把自然语言转换成机器可理解可执行的语义表达(meaning representation),该语义表达通常遵循某一语法(如lambda calculus, SQL),具有很强的语义组合性,并且可以精确地反映问题的推理过程,可以在某个知识表示(如知识图谱、表格)上直接执行获得结果。

在本文中,我们介绍如何利用推理的方法有效地解决多轮问答和语义分析问题。我们以基于知识图谱[3-4]的多轮问答进行介绍,对基于表格的多轮问答感兴趣的读者请阅读我们发表在 NLPCC-2019 的工作[5]。

具体来说,任务的输入包含知识源(如知识图谱或表格)、当前轮的问题及对话的问答历史,任务的输出是当前轮问题的答案。为了理解整个模型的推理过程,我们使用语义分析的方式,即对每个输入问题输出一个语义表达,该语义表达在输入的知识源上执行即可获得答案。

我们提出了如图3所示的机器推理模型,其中共利用了三种知识:第一种是语法知识(grammar knowledge),该模型会在语法知识的指导下生成语义表示中的每个单元,对于语义分析任务来说,生成的语义表达要在语法正确的前提下正确表达问题的含义;第二种是对话历史中的上下文知识,该模型会记录历史问句的语义解析结果,并利用其生成当前轮问题的语义表示,这对处理多轮问答中的省略(实体省略或意图省略)尤为重要;第三种是数据知识,我们从训练数据自动检索与当前数据相似的实例,通过基于元学习(meta-learning)的推断方法获得与当前样例更相关的“个性化”模型。

图3:基于机器推理的多轮语义分析和问答框架

语法知识

在基于知识图谱的问答场景下,我们定义了如图4的语法操作,包括查找、比较、计数、复制历史逻辑表达等。语法中每个动作操作都可以看做一个推演规则,左边是数据的类型,右边是可以推演出该类型数据的函数,函数中包含特定类型的参数

图4:基于知识图谱的多轮问答任务中定义的语法
上下文知识

在此基础上,我们使用自顶向下的方式预测当前问题的逻辑表达。我们使用了序列到动作(sequence-to-action)的模型,该模型将输出序列化语义表示转换为输出遵循语法的动作序列,不仅可以利用编码器-解码器框架建模序列的优势,还可以保证输出的语法正确性。此外,该模型可以非常自然地利用上下文知识。如图5所示,我们在 Dialog Memory 中记录了历史问句的语义解析结果,在输出每个动作时都有一定的概率复制历史的语义表示子序列。模型的具体细节请参考[3]。

图5:基于知识图谱的序列到动作(sequence-to-action)模型[3]数据知识

受训练数据中统计分布的影响,基于神经网络生成模型很容易生成通用的序列[6]。我们提出了基于元学习的推断模型缓解这一问题。具体地,对于任一输入,我们自动从训练数据集中查询与其语义相似的样本,随后在基本模型 f(θ) 的基础上微调,获得为当前样本量身定做的模型 f(θ^')。在训练的过程中,我们需要同时学习基本模型 f(θ) 和在查询样本上把 f(θ) 微调到 f(θ^') 的过程。我们将这一过程建模为元学习,在训练过程中同时训练这两个过程,如图6所示。更多细节请参考[4]。实验结果如图7所示,我们提出的多轮语义分析和问答方法在 IBM 研究院多轮复杂问答任务 CSQA 上取得了目前 state-of-the-art 的结果[3][4]。

图6:基于元学习的推断模型
图7:我们提出的多轮语义分析和问答方法在多轮复杂问答任务 CSQA 上取得了目前的最佳结果[3][4]。
结语

本文介绍了基于机器推理的方法在多轮语义分析和问答中的应用,该方法有效利用语法知识、上下文知识和数据知识,在多轮复杂问答任务 CSQA 上取得了目前 state-of-the-art 的结果。

敬请期待机器推理方法在更多推理任务上的应用!

参考文献:

[1] Ming Zhou, Nan Duan, Shujie Liu, Heung-Yeung Shum. Progress in Neural NLP: Modeling, Learning and Reasoning. Accepted by Engineering, 2019.

[2] 段楠,周明. 《智能问答》. 高等教育出版社,2018.

[3] Daya Guo, Duyu Tang, Nan Duan, Jian Yin, Ming Zhou. Dialog-to-Action: Conversational Question Answering over a Large-Scale Knowledge Base. NeurIPS, 2018.

[4] Daya Guo, Duyu Tang, Nan Duan, Ming Zhou, Jian Yin. Coupling Retrieval and Meta-Learning for Context-Dependent Semantic Parsing. ACL, 2019.

[5] Yibo Sun, Duyu Tang, Jingjing Xu, Nan Duan, Xiaocheng Feng, Bing Qin, Ting Liu, Ming Zhou. Knowledge-Aware Conversational Semantic Parsing Over Web Tables. NLPCC, 2019.

[6] Tatsunori Hashimoto, Kelvin Guu, Yonatan Oren, Percy Liang. A retrieve-and-edit framework for predicting structured outputs. NeurIPS, 2018

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论问答系统语义分析自然语言处理机器推理
1
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~