北大与百度提出多文章验证方法:让机器验证阅读理解候选答案

在实现通用人工智能的道路上,机器阅读理解是一个必须要攻克的难题。针对这一难题,北京大学计算语言学教育部重点实验室与百度的研究者提出了一种能帮助机器更好地从多篇文章中挑选出正确答案的方法。该研究的论文已被将于当地时间 7 月 15-20 日在澳大利亚墨尔本举办的 ACL 2018 会议接收。

机器阅读理解(MRC)是指让计算机具备通过文本数据获取知识和回答问题的能力,人们相信这是构建通用智能体的一个关键步骤(Chen et al., 2016)。MRC 社区近些年来增长迅速。随着各种数据集的推出,MRC 任务也已经从早期的完形填空式的测试(Hermann et al., 2015; Hill et al., 2015)发展成了从单篇文章中提取答案(Rajpurkar et al.,2016),并且最近还发展成了更复杂的基于网络数据的问答(Nguyen et al., 2016; Dunn et al., 2017; He et al., 2017)。

在为这些 MRC 任务开发模型方面也已经取得了很不错的进展,尤其是基于单篇文章提取答案方面(Wang and Jiang, 2016; Seo et al., 2016; Pan et al., 2017)。一个显著的里程碑是好几个 MRC 模型在 SQuAD 数据集上的表现已经超越了人类标注者(Rajpurkar et al., 2016)。但是,考虑到阅读整个网络的终极目标,这种在单篇维基百科文章上取得成功仍还不够。因此,几个最新的数据集(Nguyen et al., 2016; He et al., 2017; Dunn et al., 2017)试图通过纳入搜索引擎而以更接近真实情况的设置来设计 MRC 任务。对于每个问题,他们都会使用搜索引擎来检索多篇文章,并且让 MRC 模型阅读这些文章以给出最终答案。

这种多文章 MRC 的一大固有难题是:因为所有文章都与问题相关但通常是独立写出的,所以可能存在多个让人困惑的候选答案(正确或不正确都可能)。表 1 给出了一个来自 MS-MARCO 的案例。我们可以看到所有的候选答案与问题都语义匹配,但它们在字面上是不一样的,甚至有些还是不正确的。如 Jia and Liang (2017) 展示的那样,这些让人困惑的候选答案可能会让 MRC 模型非常难以区分。因此,这样的多文章 MRC 问题需要特别的考虑。

表 1:一个来自 MS-MARCO 的示例。粗体文本是根据边界模型从每篇文章预测得到的候选答案。来自 [1] 的候选答案被这个模型选作了最终答案,而正确答案来自 [6] 并且可以通过来自 [3]、[4]、[5] 的答案验证。

在本论文中,我们提出利用不同文章的候选答案来验证最终的正确答案以及排除有噪声的不正确的答案。我们的假设是:正确答案在这些文章中会出现得更加频繁,并且通常具有一些共同点,而不正确的答案通常彼此各不相同。表 1 给出的示例就展示了这种现象。我们可以看到,从最后四篇文章中提取出的候选答案全都是该问题的可行答案且它们的语义彼此近似,而来自其它两篇文章的候选答案是不正确的且没有来自其它文章的信息提供支持。因为人类通常会比较不同来源的候选答案以推断最终答案,所以我们希望 MRC 模型也能受益于这种跨文章的答案验证过程。

我们的模型的整体框架如图 1 所示,其由三个模块组成。第一个模块,我们遵照基于边界的 MRC 模型(Seo et al., 2016; Wang and Jiang, 2016),通过确定答案的起始位置和终止位置来寻找每篇文章的候选答案。第二个模块,我们建模从这些文章中提取的候选答案的含义,然后使用内容分数从另一个角度来衡量候选答案的质量。第三个模块,我们通过让每个候选答案有能力基于其它候选答案的表征关注其它答案而执行答案验证。我们希望候选答案能根据它们的语义相似度彼此收集支持信息并进一步决定每个候选答案是否正确。

图 1:我们的多文章机器阅读理解方法概览

图 2:一篇文章中词的边界概率和内容概率

因此,最终答案是由三个因素决定的:边界、内容和跨文章的答案验证。这三个步骤使用了不同的模块建模,可以在我们的端到端框架中联合训练。

我们在 MS-MARCO(Nguyen et al., 2016)和 DuReader(He et al., 2017)数据集上进行了广泛的实验。结果表明我们的答案验证型 MRC 模型的表现显著优于基准模型,并且在这两个数据集上都实现了当前最佳的表现。

表 3:我们的方法与竞争模型在 MS-MARCO 测试集上的表现

表 4:在 DuReader 测试集上的表现

表 6:我们的模型为表 1 中给出的候选答案所预测的分数。尽管候选答案 [1] 得到了很高的边界分数和内容分数,但验证模型更偏向正确答案 [6] 并将其选作了最终答案。

使用跨文章答案验证的多文章机器阅读理解(Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification)

论文地址:https://arxiv.org/abs/1805.02220

在真实网络数据上的机器阅读理解(MRC)在回答一个问题时通常需要机器分析搜索引擎检索到的多篇文章。相比于在单篇文章上的 MRC,多文章 MRC 的难度更大,因为我们很可能会从不同的文章得到多个让人困惑的候选答案。为了解决这个问题,我们提出了一种端到端的神经模型,能让这些来自不同文章的候选答案基于它们的内容表征彼此验证。具体来说,我们是基于三个因素联合训练三个模块来预测最终答案:答案边界、答案内容和跨文章答案验证。实验结果表明我们的方法的表现显著优于基准,并且在英语的 MS-MARCO 数据集和汉语的 DuReader 数据集(这两个数据集都是为真实环境中的 MRC 设计的)上都实现了当前最佳的表现。

理论
相关数据
基准技术
baseline

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

噪声技术
Noise

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

通用人工智能技术
Artificial General Intelligence

强人工智能或通用人工智能(Strong AI或者 Artificial General Intelligence)是具备与人类同等智慧、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一,同时也是科幻小说和未来学家所讨论的主要议题。相对的,弱人工智能(applied AI,narrow AI,weak AI)只处理特定的问题。弱人工智能不需要具有人类完整的认知能力,甚至是完全不具有人类所拥有的感官认知能力,只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能,发现这个具有领域的局限性,人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能(artificial general intelligence,AGI),或具备执行一般智慧行为的能力。[4]强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

推荐文章
从算法、硬件到研究社区,全面回顾2016年机器学习领域主要进展
微胖
级联 MobileNet-V2 实现人脸关键点检测(附训练源码)
机器之心
SQuAD综述
PaperWeekly
暂无评论
暂无评论~
返回顶部