艾伦人工智能研究所提出新型问答数据集 DROP,需要对段落进行离散推理的阅读理解
艾伦人工智能研究所今日宣布一项新的名为「DROP」的排行榜,该排行榜背后是一项新的问答数据集,在该研究所的 NAACL2019 论文「DROP:一个需要对段落进行离散推理的阅读理解基准」中引入,由 Dua 等人提出。论文概要如下:阅读理解近期取得快速发展,机器系统也在最受欢迎的任务数据集上人类旗鼓相当。然而,大量的工作突出了这些系统的脆弱。我们引入一个新的英语阅读理解基准 DROP,它要求对段落的内容进行离散推理。在这个众包,对话创建的 96k 问题基准测试中,系统必须解决问题中的引用,或解决多个输入位置,并对它们执行离散操作(例如添加,计数或排序)。这些操作需要更加全面地理解段落的内容,而不是只理解先前数据集所需的内容。我们从该数据集的阅读理解和语义解析文献中应用最先进的方法,并表明最佳系统表现仅在我们的广义精度度量上达到 32.7%的 F1,而人类专家表现为 96.0%。我们还提出了一个新的模型,结合阅读理解方法和简单的数字推理,将准确率提高到 47.0%的 F1。