机器推理系列文章概览:七大NLP任务最新方法与进展

编者按:自然语言处理的发展进化带来了新的热潮与研究问题,研究者们在许多不同的任务中推动机器推理(Machine Reasoning)能力的提升。基于一系列领先的科研成果,微软亚洲研究院自然语言计算组将陆续推出一组文章,介绍机器推理在常识问答、事实检测、自然语言推理、视觉常识推理、视觉问答、文档级问答、多轮语义分析和问答等任务上的最新方法和进展。

从规则方法、统计方法到目前的深度学习方法,自然语言处理(NLP)研究一直处于不断发展和进化的状态之中,并在过去五年取得了令人瞩目的成果。对于一个拥有充分标注语料的 NLP 任务(例如机器翻译和自动问答),现有的深度学习方法能够很好地对输入和输出之间的关系进行建模,并在分布相同或类似的测试数据上取得令人满意的效果。然而,一旦测试数据所涉及的知识和领域超出训练数据的范畴之外,大多数模型的效果都会一落千丈。这一现象其实不难理解:人类在从小到大的成长过程中,已经通过各式各样的学习过程掌握了大量的通用知识(例如数学知识、物理知识、世界知识、常识知识等)。这些知识能够帮助人类在学习新技能或遇到新问题时进行推理并举一反三。然而,绝大多数 NLP 模型都不具备这样的知识模型,因此就不能很好地理解和解决新的问题。

大规模知识图谱(例如 Satori 和 WikiData )的出现使得构建基于知识的 NLP 模型成为可能,语义分析(Semantic Parsing)和知识图谱问答(Knowledge-based QA)研究也藉此成为最热门的两个 NLP 课题。然而,由于现有知识图谱对人类知识的覆盖度依然非常有限,基于知识图谱的 NLP 模型只能精准理解和处理很少一部分自然语言问题和任务,而对剩余部分无能为力。

最近两年,预训练模型(例如GPT、BERT和XLNet)的出现极大地提高了几乎所有自然语言处理任务的最优水平。通过在海量文本上进行基于语言模型的预训练以及在下游任务上对模型参数进行微调,预训练模型能够很好地将从训练数据中学习到的“通用知识”迁移和传递到下游任务中。关于这种“通用领域预训练+特定任务微调”的新范式,整个 NLP 社区也展开了热烈的讨论:预训练模型是否真的学到了 “知识”?它是否能够替代已有的符号化知识图谱?它是否具备推理能力?

带着对上述若干问题的好奇,微软亚洲研究院自然语言计算组的研究员开展了一系列关于机器推理的研究。作为引言,本文将对什么是机器推理给出解释,并简要说明已有 NLP 方法与机器推理的关系。接下来,我们会陆续推出一系列文章,介绍机器推理在常识问答、事实检测、自然语言推理、视觉常识推理视觉问答、文档级问答、多轮语义分析和问答等任务上的最新方法和进展。

机器推理(Machine Reasoning),是指基于已有知识对未见问题进行理解和推断,并得出问题对应答案的过程[1]。根据该定义,机器推理涉及4个主要问题:(1)如何对输入进行理解和表示?(2)如何定义知识?(3)如何抽取和表示与输入相关的知识?(4)基于对输入及其相关知识的理解,如何推断出输入对应的输出?下图给出机器推理的整体框架。

图1:机器推理整体框架
对于输入的理解和表示,NLP 领域已经积累了大量的研究,包括词袋(Bag-of-Word)模型、句法分析(Syntactic Parsing)模型、词嵌入(Word Embedding)模型和句子嵌入(Sentence Embedding)模型等。对于知识的定义,不仅开放/特定领域的知识图谱和常识图谱属于“知识”的范畴,目前被广泛研究和使用的预训练模型同样可以看做是知识。这是因为预训练模型的本质就是将每个单词在海量文本中的上下文存储在模型当中。Facebook 的工作[2]也从实验角度证明了现有预训练模型对知识图谱和常识知识的覆盖。对于知识的提取和表示,基于知识图谱的模型通常基于实体链接的结果从知识图谱中找到与输入相关的知识,并采用知识嵌入(Knowledge Embedding)的方式对其进行编码和建模。相比之下,基于预训练模型的知识提取则对应了使用预训练模型对输入文本进行编码的过程。对于基于输入及其相关知识进行推断,不同的任务通常采用不同的推断算法。例如,在语义分析任务中,推断过程对应了生成语义表示的算法。在基于预训练模型的微调方法中,推断过程对应了已有预训练模型之上的任务相关层。

上述描述只是对机器推理的一个粗浅解释。在接下来的一系列文章中,我们将分别介绍上述机器推理框架在若干最新推理任务上的具体实现方法和实验效果,包括:

机器推理系列之一:基于推理的常识问答
图2:我们提出的推理方法(XLNet+Graph Reasoning)在以色列特拉维夫大学常识问答任务 CommonsenseQA上取得了目前 state-of-the-art 的结果[3]。
(https://www.tau-nlp.org/csqa-leaderboard)
机器推理系列之二:基于推理的事实检测
图3:我们提出的推理方法(DREAM)在 Amazon 剑桥研究院事实检测任务FEVER上取得了目前 state-of-the-art 的结果[4]。
(https://competitions.codalab.org/competitions/18814#results)
机器推理系列之三:基于推理的跨语言自然语言推理
图4:我们提出的跨语言预训练模型(Unicoder)在纽约大学跨语言自然语言推理任务XNLI上取得了目前 state-of-the-art 的结果[5]。
(https://arxiv.org/pdf/1909.00964.pdf)
机器推理系列之四:基于推理的视觉常识推理
图5:我们提出的跨模态预训练模型(Unicoder-VL)在华盛顿大学视觉常识推理任务 VCR 上取得了目前 state-of-the-art 的结果[6]。
(https://visualcommonsense.com/leaderboard/)
机器推理系列之五:基于推理的视觉问答
图6:我们提出的推理方法(DREAM+Unicoder-VL)在斯坦福大学视觉推理和问答任务 GQA 上取得了目前 state-of-the-art 的结果[7]。
(https://evalai.cloudcv.org/web/challenges/challenge-page/225/leaderboard/733)
机器推理系列之六:基于推理的文档级问答
图7:我们提出的基于BERT的文档建模方法(BERT-DM)在谷歌文档级问答任务 NQ 上取得了目前 state-of-the-art 的结果[8]。
(https://ai.google.com/research/NaturalQuestions)
机器推理系列之七:基于推理的多轮语义分析和问答。
图8:我们提出的多轮语义分析和问答方法(Seq2Action)在IBM研究院多轮复杂问答任务 CSQA 上取得了目前 state-of-the-art 的结果[9][10]。
机器推理全系列文章将在接下来一段时间内陆续发布,敬请期待!

参考文献:

[1] Ming Zhou, Nan Duan, Shujie Liu, Heung-Yeung Shum. Progress in Neural NLP: Modeling, Learning and Reasoning. To appear in Engineering, 2019.

[2] Fabio Petroni, Tim Rocktaschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H. Miller, Sebastian Riedel. Language Models as Knowledge Bases?. EMNLP, 2019.

[3] Shangwen Lv, Daya Guo, Jingjing Xu, Duyu Tang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, Guihong Cao, Songlin Hu. Graph-based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering. To appear in arXiv, 2019.

[4] Wanjun Zhong, Jingjing Xu, Duyu Tang, Zenan Xu, Nan Duan, Ming Zhou, Jiahai Wang, Jian Yin. Reasoning Over Semantic-Level Graph for Fact Checking. To appear in arXiv, 2019.

[5] Haoyang Huang, Yaobo Liang, Nan Duan, Ming Gong, Linjun Shou, Daxin Jiang, Ming Zhou. Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks. EMNLP, 2019.

[6] Gen Li, Nan Duan, Yuejian Fang, Ming Gong, Daxin Jiang, Ming Zhou. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training. arXiv, 2019.

[7] Chenfei Wu, Nan Duan, Gen Li, Yanzhao Zhou, Duyu Tang, Xiaojie Wang, Daxin Jiang, Ming Zhou. DREAM: Dynamic REAsoning Machine for Visual Question Answering. To appear in arXiv, 2019.

[8] Bo Zheng, Haoyang Wen, Yaobo Liang, Nan Duan, Wanxiang Che, Daxin Jiang, Ting Liu, Ming Zhou. Document Modeling with Graph Attention Networks for Multi-grained Machine Reading Comprehension. To appear in arXiv, 2019.

[9] Daya Guo, Duyu Tang, Nan Duan, Jian Yin, Ming Zhou. Dialog-to-Action: Conversational Question Answering over a Large-Scale Knowledge Base. NeurIPS, 2018.

[10] Daya Guo, Duyu Tang, Nan Duan, Ming Zhou, Jian Yin. Coupling Retrieval and Meta-Learning for Context-Dependent Semantic Parsing. ACL, 2019.
产业NLP机器推理
71
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
IBM研究院机构

IBM研究院(IBM research)是IBM公司的一个(研究)部门,是一个研究与先进发展的组织,该部门目前分布在全球八个地方,并正进行着数百个研究专案,这个部门最早可追溯到1945年成立于哥伦比亚大学的华生科学运算实验室(Watson Scientific Computing Laboratory)。 IBM研究院的主要研究活动包括创新材料与结构的发明、高效能微处理器及电脑、分析方法与工具、算法、软件架构、管理方法、从资料进行搜寻并探知意向。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

视觉问答技术

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

实体链接技术

在自然语言处理中,实体链接,也称为命名实体链接(NEL)、命名实体消歧(NED)。实体链接的任务是为文本中提到的实体(例如着名的个人,地点或公司)分配唯一的身份。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

推荐文章
好好好