一鸣作者

让机器更好地理解数字,微信AI登顶数字离散推理榜单

近日,微信团队的一项工作刷新了艾伦 AI 实验室的 DROP 榜单。这是一个主要考察机器阅读理解中的因果推理,特别是数字信息推理能力的榜单。这项工作在本周刷新了该榜单,超越第二名谷歌的模型一个点以上。因此,机器之心采访了微信团队,请团队介绍该工作背后的技术信息。

机器阅读理解一直是自然语言处理中的重要任务。近来很多研究都在致力于解决这一问题,包括采用专家规则、机器学习神经网络,以及最近较为火热的预训练语言模型等。尽管目前已有很多预训练语言模型在 SQuAD 等榜单上超过人类水平,但对于因果推理,特别是数字方面的推理仍有很大不足。例如,当文本中出现几组数字,向机器提出问题,如「排名第二大的值是多少?」,则机器可能无法很好地回答。

为了解决这一问题,帮助模型在数字离散推理方面更进一步,腾讯微信团队近日提出了专门针对这一任务的模型—NumNet+。该模型基于 NumNet 架构进行了改进,在 DROP 阅读理解榜单上取得了第一名的成绩,F1 和 EM 分数均超过之前效果最优的谷歌集成模型 BERT-Calculator 一个点以上。目前这项工作已开源,机器之心近日采访了微信团队,请研究人员介绍这项新 SOTA 工作。

DROP 榜单的最新排名(2019 年 10 月 16 日)。

  • 项目地址:https://github.com/llamazing/numnet_plus

  • 榜单地址:https://leaderboard.allenai.org/drop/submissions/public

登顶 DROP 榜单

数字离散推理是机器阅读理解下的一个重要任务,目的是考察机器是否能够根据文本中的一处或多处信息,结合问题处理这些信息,通过数字运算等方式,较好地回答给定的问题。考察这一能力的便是 DROP 排行榜。DROP(Discrete Reasoning Over the content of Paragraphs)是艾伦 AI 实验室等提出的一个数据集。相比 SQuAD 数据集,DROP 对模型的数字推理能力要求更高。在训练过程中,模型无法显式地通过抽取或文字匹配的方式直接获得信息,而是需要从文本的多个地方获取数字信息,然后进行运算(包括但不限于:相加、计数或排序)。

DROP 数据集有将近 8 万的训练集问题、近 1 万个开发集问题和同样数量的隐藏测试集问题。这些问题是通过众包形式创建出来的。此外,只有训练集和开发集公开,而测试集不会开放。目前人类在该数据集上的表现(F1 分数)目前为 96%,而在数据集刚刚提出的时候,基线模型的 F1 分数仅仅为 32%。

DROP 数据集中的一些文本、问题和对应的答案。可以看出,模型需要进行对数值进行加减、按年代排序、或进行因果推理

DROP 榜单是艾伦 AI 实验室设立的一个类似于 GLUE 榜单的排名,参与者需要按照要求的格式将模型打包为 Docker 镜像后上传,由网站自己将测试集放到模型中进行测试,以此保证公平性。同时,DROP 严格限制参与者每周仅能上传一次,以防刷榜。

那么,模型具体的架构是什么样的?机器之心采访了微信团队,为读者朋友们介绍模型背后的技术原理。

NumNet+:能进行数字运算的模型

刷新本次榜单的是 NumNet+模型,由微信团队的 Ronqin Yang、Qiu Ran、Yankai Lin、Peng Li、Jie Zhou 研究者完成的。

据介绍,本次刷新榜单的是 NumNet+是基于 NumNet 模型构建的,采用了编码层+推理层+预测层的架构。具体而言,NumNe+t 的编码层使用了最新的 RoBERTA 预训练模型,用于编码输入的文本和问题,并利用预训练语言模型学习文本中的语义、语法等先验信息。推理层使用了图神经网络,用于处理编码好的文本和问题信息,而预测层则和 NAQANet 类似,将问题分为四种,并计算潜在答案的概率。

从流程上来说,首先使用预训练语言模型编码文本和问题信息,通过编码方式获取语义结构化的先验知识。随后,将编码的信息输入推理层中,这是 NumNet+的核心层,用于进行数字感知。模型可以学习到用哪些数字进行比较,以及比较这些数字的方法。

神经网络这样处理数字信息:给定一个问题和一段文本,模型会先把文本和问题中的数字都抽取出来,每个数字是图上的一个节点。同时,对于任意两个数字,假设为 A 和 B。如果 A 大于 B,则在 A 和 B 之间添加一条有向边,表示数字 A 和 B 之间有着 A 大于 B 的关系。如果 A 小于等于 B,则加入另一指向的有向边。通过这样的操作,用图的拓谱结构把数字相对大小知识注入模型。下一步则结合文本信息,让模型进行更复杂的数学推理。通过二者的结合,最终实现数字方面的之所以使用图神经网络,是因为图网络在符号推理上具有更好的优势,可以很好地建模数字之间的大小关系。

NumNet+的整体架构

在获得了数字之间的关系信息后,信息被传入最终的预测层中。在预测时,由模型给定答案属于的类别的条件概率,主要分为以下四种:

  • 文本:答案来自文本;

  • 问题:答案来自问题;

  • 计数:答案需要模型计数回答;

  • 算术表达:通过数学运算获得答案。

最终由预测层提供预测回答。

从模型效果来看,在 DROP 榜单上取得的效果是非常惊艳的。在测试集上,完全匹配(Exact Match:EM)分数达到了 79.36%。而 F1 分数更达到了将近 83%,高出第二名一个点以上。

同时,据微信团队介绍,他们的 OCN 模型在 RACE 榜单——一个由中国初高中英语阅读选择题组成的数据集上,性能已经超过了众包的人类水平,说明了这一模型优秀的性能。

当然,微信团队也表示,目前尽管 NumNet+刷新了 DROP 排行榜,但仍有一些不足。首先,NumNet+目前支持的运算还太少,需要进一步学会更多的数字表达式。此外,从长期来看,NumNet+模型还需要在多种不同的文本上进行测试,如在文字描述简单,但需要的数字推理更为复杂的文本(如数学应用题)上提升推理表现。最终,构建出一个既能够处理文本复杂但运算简单,也能在文本简单但运算复杂的文本上进行推理的高性能模型,是团队接下来会探索研究的方向。

打破机器推理的障壁

微信团队表示,本次研究提出 NumNet+,主要是为了解决现有模型在数字离散推理方面存在的问题。诚然,预训练语言模型,如 BERT 等,已经在机器阅读理解数据集(SQuAD 等)上取得了很大的成功。但是,即使是目前最先进的预训练语言模型也无法超越人类的推理能力。因此,本次实验的目的是为了进一步探索机器推理领域。此外,考虑到传统的神经网络在符号运算上存在的天生短板,学界目前依然缺乏一种通用、成熟的建模方式,NumNet+无疑提出了一种「预训练语言模型+图神经网络」的处理方法。此外,NumNet+的成功再一次证明了预训练语言模型在语言建模和编码上的强大优势,机器阅读理解模型也可以通过构建合适的预训练微调方法实现超越复杂专业模型的表现。

谈到机器阅读理解目前的发展和趋势,微信团队表示,将来的机器阅读理解会更注重几个方面的研究。首先是开放式问答,由机器自行从库中搜索并收集信息进行问答。其次是数字离散推理,即本次研究探索的方向。此外,还有通过对文本进行多步推理,从多条文本中获取答案的研究。最后是常识推理,即让模型像人类一样具有常识,并利用常识知识进行推理和问答。

从应用上来说,NumNet+这项工作可以为诸如人机对话场景提供很多技术支持,使得对话更为智能,帮助客服机器人、语音助手等更好完成人类的指令。同时,在金融大数据方面,本研究可以帮助机器智能地阅读财务报表等涉及数字的文本内容,使得信息抽取和挖掘工作变得更容易。

目前,NumNet+代码已开源,微信团队对开源持开放态度,希望能够推动社区发展和技术交流。

参考链接:

NumNet 论文地址:https://arxiv.org/abs/1910.06701

DROP 数据集:https://allennlp.org/drop

理论谷歌因果推理机器阅读(理解)微信
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

算术技术

算术(英语:arithmetic)是数学最古老且最简单的一个分支,几乎被每个人使用着,从日常生活上简单的算数到高深的科学及工商业计算都会用到。一般而言,算术这一词指的是记录数字某些运算基本性质的数学分支。

推荐文章
暂无评论
暂无评论~