张倬胜作者上海交通大学学校

刷新SQuAD2.0 | 上海交通大学回顾式阅读器(Retro-Reader)解析

阅读理解不仅需要根据篇章准确回答问题,还要识别并拒绝无法回答的问题。当前机器阅读理解系统主要得益于强大的预训练语言模型,即编码器模块。从阅读理解角度而言,编码器模块仅着眼于“阅读”。本文致力于探索更好的“解码”设计,重点关注判别器模块。启发于人类的阅读理解模式,提出一种回顾式阅读器(Retrospective Reader),集成两阶段阅读和验证的模式。

该模型于 2020 年 1 月 10 日,在斯坦福大学发起的机器阅读理解挑战赛 SQuAD 2.0 (Stanford Question Answering Dataset 2.0) 中荣登榜首,刷新了单模型和集成模型的最佳纪录;模型在 NewsQA 数据集上也获得了当前最高性能。此外,本文首次针对阅读理解任务定义统计显著性检验,并表明模该型显著优于基准模型。

引言

机器阅读理解(MRC)是自然语言理解(NLU)中的一项重要且长期的目标,旨在训练机器理解文本后准确地回答问题。机器阅读理解具有良好的应用前景,例如自动问答、对话系统等。前期阅读理解工作假定所有问题均可回答,主要关注篇章和文本的建模和交互设计;近期,伴随不可回答问题的阅读理解成为一大热点,后者更加接近真实应用。 

对于伴随不可回答问题的机器阅读理解(本文关注类型),模型需具备两方面的能力:1)判断问题是否可回答;2)准确回答问题。为了进行可回答性判断,需要对给定的文本有深入的理解和精巧的判别设计,并使得阅读理解系统更接近于实际应用。相对应地,阅读理解研究可大致分为两个方面:1)构建强劲的语言模型作为文本编码建模模块;2)设计精巧的“解码”策略给出准确有效的回答。 

*注:本文认为,自然语言处理任务通常可视为编码-解码模式。 

在阅读理解任务中,编码器(即 PLM)的能力依然是压倒性的,但是答案验证器(verifier)的作用也变得重要,性能良好的验证器对于强编码器上的性能提升是决定性的。诸如 BERT、XLNet、ALBERT 等预训练语言模型(PLM)已经在各种自然语言处理任务上取得了一系列成功,广泛地发挥了强大的编码器的作用。

然而,预训练语言模型耗费大量的计算资源和计算时间。此外,当前相关研究针对阅读理解任务相适应的解码模块关注较少,而有效的解码设计对阅读理解具有重要影响,无论编码模块本身有多强,均能获得一致提升。 

本文基于人类阅读理解考试中的阅读思路:首先,通读全文和问题,掌握大意,初步判断;其次,复读全文,验证答案,给出答案。受此启发,提出一种回顾式阅读器(Retrospective Reader, Retro-Reader),集成两阶段阅读和验证的模式。

模型

Retro-Reader 模型包括略读模块(sketchy reading module)和精读模块(intensive reading module)来模拟人类阅读。略读模块用于阅读文章和问题,得到初步的判断;精读模块验证可回答性,并给出候选。两个模块的输出汇总在一起,以做出最终决定。

图1. 阅读理解系统概览略读模块由编码层、交互层和外部前置验证器(E-FV)构成。编码层用于将输入文本编码,进而输入到多层 Transformer 交互层构建篇章和问题间的向量空间关系,得到的隐层向量表示在验证器得到可回答性的初步预测。

精读模块使用与略读模块同样的编码和交互。在得到隐层向量表示后,在输入线性层得到用于可回答问题的起止位置概率的同时,并行输入到内部前置判别器(I-FV),得到不可回答的概率。

此外,在早期阅读理解研究中,一大热点为基于注意力机制显性地构建篇章和问题关联,受此启发,本文在深层 Transformer 交互层后,探索了两种基于问题导向的篇章上下文融合机制,来考察在强大的预训练语言模型基础上,此类注意力机制是否还能带来提升。

最后,E-FV 和 I-FV 的不可回答概率在后置判别器中(RV)融合得到最终的回答决策。

统计显著性分析

当前阅读理解相关研究发展迅猛,模型性能已达到较高的水平。因此,统计显著性测试对于评估模型性能的差异变得更加重要。

本文基于较为严苛的完全匹配(Exact Match)指标进行显著性测试,并将测试建模成一个二分类问题:评估模型的每个预测完全正确与否。基于任务特点,使用一种配对样本的非参数检验--麦克尼马尔检验(McNemar’s test)来测试结果显著性,其零假设为:两个模型的预测结果(正确或错误)的总体分布无显著差异。图2. 交叉二维频数表

该测试采用二项分布检验,针对两个模型预测的结果变化频率,计算二项分布的概率值,大样本下有近似为 1 的卡方统计量:

在显著性测试中,p 值定义为在零假设下获得等于或大于观察到的极端结果的概率。p 值越小,显著性越大。常用可靠性水平为 95%,即 p = 0.05。

实验结果

实验结果表明,本文提出的 Retro-Reader 不仅显著优于基准模型 ALBERT,并且在 SQuAD2.0 排行榜超越了所有模型,刷新了单模型和集成模型的最佳纪录。

此外,模型在 NewsQA 数据上同样达到了一致的提升,并取得了数据集上的最高结果。

答案分析

首先是判别器消融分析,对比使用不同的答案判断模式。

我们观察到,任何一个前置判别器(FV)都可以提高基线性能,并且将两者集成在一起作为后置判别(RV)性能最佳。

对于问题导向的篇章上下文融合机制,可以看到,在较强的预训练语言模型后端增加额外的显性交互层只能带来微弱的结果变化,验证了语言模型捕获段落和问题之间关系的强大能力。相比之下,答案判别模块可以带来更加实质性的提升,表明了答案判别的研究潜力。

为了直观地观察预测结果差异,我们给出了基准 ALBERT 和 Retro-Reader 模型给出了有关 SQuAD2.0 的预测示例。

上述结果表明我们的模型在判断问题是否可回答方面更有效,能有效避免给出似是而非的“陷阱答案”。

本文总结

答案的可回答性是阅读理解任务中的关键目标之一。本文针对阅读理解任务特点,受人类阅读模式的启发,提出回顾式阅读器,结合了略读和精读两阶段阅读和理解模式。使用最新的预训练语言模型作为基准模型,在两个关键基准阅读理解数据集 SQuAD2.0 和 NewsQA 上取得了新的最佳结果,并在新引入的统计显著性分析中,显著优于基线模型,并验证了答案判别对阅读理解的重要性和有效性。

上海交通大学自然语言处理实验室-机器阅读理解团队

上海交通大学自然语言处理实验室是国内外最早开展机器阅读理解研究的团队之一,持续投入机器阅读理解核心技术研究。团队由赵海教授主持指导,近年来团队斩获了多项国际比赛与评测荣誉: 

1. 多次荣获国际权威机器阅读理解评测 SQuAD 2.0 冠军,首次以单模型超越人类基准,首次在 F1 指标上超过 90%;

2. 2019 年荣获国际大型考试类阅读理解任务数据集 RACE 挑战赛冠军(联合云从科技);

3. 2019 年荣获国际自然语言推理 SNLI 排行榜第一名;

4. 2017 年荣获首届“讯飞杯”全国中文机器阅读理解评测(CMRC2017)单模型第一名。

延伸阅读

语义感知BERT(SemBERT):

AAAI 2020 | 语义感知BERT(SemBERT)

基于句法指导的阅读理解模型(SG-Net):

https://arxiv.org/abs/1908.05147 

增强双向匹配网络(DCMN++):

https://arxiv.org/abs/1908.11511

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论上海交通大学自然语言理解自然语言处理机器阅读理解
相关数据
云从科技机构

云从科技孵化自中国科学院,受托参与人工智能国标、行标制定,并成为第一个同时承担国家发改委人工智能基础平台、应用平台,工信部芯片平台等国家重大项目建设任务的人工智能科技企业。 云从科技致力以人工智能技术与人机协同平台为基础,定义出场景化、行业化、个性化的智能服务。 云从科技业务涵盖金融、安防、交通、商业等领域,通过行业领先的人工智能、认知计算与大数据技术形成的整合解决方案,已服务400余家银行14.7万网点、30个省级行政区公安、80余家机场,实现银行日均比对2.16亿次、公安战果超5万起、机场日均服务旅客200万人次。

https://www.cloudwalk.cn
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

零假设技术

在推论统计学中,零假设是做统计检验时的一类假设。零假设的内容一般是希望能证明为错误的假设,或者是需要着重考虑的假设。在相关性检验中,一般会取“两者之间无关联”作为零假设,而在独立性检验中,一般会取“两者之间非独立”作为零假设。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

卡方技术

卡方常常与卡方分布和卡方检验联系在一起: 卡方分布(chi-square distribution)是常用于概率论和统计检验中的一种概率分布;卡方检验是(chi-square test)是一种基于卡方分布的常用的统计检验,其统计量在原假设(null hypothesis)成立时服从卡方分布。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

暂无评论
暂无评论~