郭达雅、许晶晶、吕尚文、唐都钰、段楠、周明作者自然语言计算组来自

机器推理系列第一弹:机器推理在常识问答任务中的应用

编者按:自然语言处理的发展进化带来了新的热潮与研究问题。基于一系列领先的科研成果,微软亚洲研究院自然语言计算组将陆续推出一组文章,介绍机器推理(Machine Reasoning)在常识问答、事实检测、自然语言推理、视觉常识推理视觉问答、文档级问答等任务上的最新方法和进展。昨天我们介绍了机器推理系列的概览,本文是该系列的第一篇文章。

推理是自然语言处理领域非常重要且具有挑战性的任务,其目的是使用已有的知识和推断技术对未见过的输入信息作出判断(generate outputs to unseen inputs by manipulating existing knowledge with inference techniques)[1]。在本文中,我们以常识问答为应用,介绍机器推理在常识问答任务上的最新方法和进展。

当前,深度学习方法在诸多智能问答任务中取得了非常出色的效果[2],但是已有的方法通常仅对输入和输出之间的语义关系进行建模,并在分布相同或类似的测试数据上测试。一旦测试数据来自不同分布或所涉及的知识和领域超出训练数据的范畴[3],大多数问答系统的性能都会有大幅度的下降。这一定程度上反映了当前深度学习算法的成功其实是模式匹配能力的提升,而正确解答一个问题需要很多人类在回答问题时所使用的背景知识(如事实类知识、常识类知识等),有效地利用这些知识能够帮助模型进行推理,以及更好地应对未见过的问题(即举一反三)。

在本文中,我们介绍在常识问答任务中如何自动获取与样本相关的知识,获得输入和知识的语义表示,以及推断得出最后的结果。我们基于机器推理的方法(XLNet + Graph Reasoning)在以色列特拉维夫大学常识问答任务 CommonsenseQA 上取得了目前 state-of-the-art  的结果。

CommonsenseQA 任务排名结果:https://www.tau-nlp.org/csqa-leaderboard

图1:我们的方法(XLNet+Graph Reasoning)目前在以色列特拉维夫大学常识问答任务 CommonsenseQA 上排名第一任务、数据与基线系统

我们在 CommonsenseQA 数据集上开展研究,任务是给定1个自然语言问题和5个候选答案作为输入,要求输出正确的答案。与已有的数据集不同,该数据集在构建过程中已经保证每个候选答案都和问题中的词汇具有语义关联,因此正确回答该数据集中的问题需要有效利用问题和候选答案的相关背景知识,更多关于数据集的细节请参考论文[4]。

我们在预训练模型(如BERT、XLNet)的基础上构建了一个基线算法,如图2所示。首先利用 XLNet[5] 预训练模型计算问题和每个候选答案的语义相关程度,然后使用 softmax 层计算各个候选答案正确的概率。
图2:基于预训练模型 XLNet 的基线算法
虽然该基线系利用了预训练模型中蕴含的知识[5],经验上也很有效,但预训练模型中的知识既不可控制也不可解释。同时,正确回答一个问题所需的知识可能来自多个信息源,并同时包括结构化和非结构化的知识、事实类和常识类的知识。以图3为例,利用来自 ConceptNet 的结构化常识知识可以帮助我们选择 A 和 C;利用来自 Wikipedia 的非结构化文本信息可以帮助我们选择 C 和 E。因此,我们希望即保留预训练模型的优势,同时从多个信息源中自动地获取与输入相关的知识,最终通过推断模型获得正确的答案。
图3:常识问答示例
机器推理模型

如图4所示,我们的推理模型包括两个模块,即知识抽取模块和基于图的推理模块。

图4:机器推理模型工作流程
在知识抽取模块,我们从多个数据源获取与输入(问题和每个候选答案的组合)相关的知识。具体地,我们同时利用结构化常识知识库 ConceptNet 和 Wikipedia 文档。在 ConceptNet 中,我们获取从问题词语到候选答案词语的路径,例如问题中包含了词语“playing guitar”,通过“playing guitar”-RelatedTo-“sound”-IsA-“cry”我们即获得了一条问题到选项“cry”的路径。在 Wikipedia 中,我们首先利用 Elasticsearch 搭建了句子级的检索系统,随后把问题和候选答案当做查询去系统中检索相关的句子。

从 ConceptNet 中获取的知识天然具有结构信息,可以把词语看做节点,把关系看做连接词语的边。Wikipedia 中的抽取结果虽然为句子,但多个证据之间存在着内在的联系,为了获取句子内部和句间的结构化知识,我们使用语义角色标注(SRL)对每个句子进行分析,并对多个句子的抽取结果建立边的连接(如使用 argument 的词语共现程度)。由此,我们从每个知识源中获得了结构化的与输入相关的知识。
图5:基于图的推理模块
在获得了与当前输入相关的知识之后,我们提出了如图5所示的基于图的推理模型。具体地,我们首先利用图的结构信息学习得到包含更丰富语义结构的词向量表示,我们的实现方式是在 XLNet 的基础上利用图的结构重新定义词语之间的距离。直觉上,在图结构中语义相近的词语的距离较近。

在获得了每个词语的表示(contextual word representation)后,我们进一步利用图的结构信息在图结构的层面做推断。图中每个节点的表示不只取决于该节点内词语的表示,同时也受图中邻居节点表示的影响,因此我们使用了图卷积神经网络计算图的表示,并最终使用基于图表示的注意力机制进行信息整合。

从表1中可以看出,本文提出的两个基于图的方法均在基线模型上有提高,两者融合会获得进一步的提升。
表1:实验结果
更多细节请参考我们的论文:Graph-based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering。

论文地址:https://arxiv.org/abs/1909.05311(点击“阅读原文”即可访问)

结语

本文介绍了基于机器推理的方法在常识问答任务中的应用,我们同时从结构化和非结构化数据源中抽取知识,并创新地提出了融合图信息的词向量学习方法和基于图的推断方法,该方法在以色列特拉维夫大学常识问答任务 CommonsenseQA 上取得了 state-of-the-art 的结果。

下期预告:机器推理系列文章的下一期将介绍机器推理在事实检测任务中的应用。敬请期待机器推理方法在更多推理任务上的应用!

参考文献:

[1] Ming Zhou, Nan Duan, Shujie Liu, Heung-Yeung Shum. Progress in Neural NLP: Modeling, Learning and Reasoning. Accepted by Engineering, 2019.

[2] 段楠,周明. 《智能问答》. 高等教育出版社,2018.

[3] Robin Jia, Percy Liang. Adversarial examples for evaluating reading comprehension systems. Empirical Methods in Natural Language Processing (EMNLP), 2017.

[4] Talmor, A.; Herzig, J.; Lourie, N.; and Berant, J. 2019. Commonsenseqa: A question answering challenge targeting commonsense knowledge. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 4149–4158.

[5] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le. XLNet: Generalized Autoregressive Pretraining for Language Understanding. Arxiv: 1906.08237

[6] Fabio Petroni, Tim Rocktaschel, Patrick Lewis, Anton Bakhtin, YuxiangWu, Alexander H. Miller, Sebastian Riedel. Language Models as Knowledge Bases? Arxiv:1909.01066
微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论常识问答机器推理
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

视觉问答技术

模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

常识知识库技术

常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

图卷积神经网络技术

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。GCN的三个主要特征:它是卷积神经网络在 graph domain 上的自然推广;它能同时对节点特征信息与结构信息进行端对端学习;适用于任意拓扑结构的节点与图;

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

推荐文章
暂无评论
暂无评论~