DeepMind论文解读:让机器更深入地理解文本

本期推荐的论文笔记来自 PaperWeekly 社区用户 @wutong_SEUDeepMind 提出了一个全新阅读理解数据集 NarrativeQA,机器需要面对的是一整部书籍或电影剧本,在没有限定答案范围的前提下,机器需要从文本中找到最相关的段落并且总结出问题的答案。

关于作者:吴桐,东南大学硕士生,研究方向知识图谱

■ 论文 | The NarrativeQA Reading Comprehension Challenge

■ 链接 | https://www.paperweekly.site/papers/1397

■ 源码 | https://github.com/deepmind/narrativeqa

论文导读

相比于信息抽取,阅读理解任务要求机器能够整合篇幅较长的上下文信息(如整篇文章)并能够对事件进行推理。但是现阶段的阅读理解任务仍然能够以一种投机取巧的方法,利用浅层的语言形态学信息(如问答对之间的文本相似性以及整个文章内的统计词频)从问题中直接找到关于答案的蛛丝马迹。

因此文中提出了一个新的阅读理解数据集,旨在迫使机器必须通篇阅读书籍或者电影脚本(远远长于一篇文章)才能回答问题。该数据集更侧重于发掘机器阅读理解对于含蓄的叙述的理解能力而不是基于浅层的模式匹配就能够直接得到答案。

工作动机

人在阅读的时候往往通读全篇,并不一定能够记住书中的每一点细节,但是一定能够注意到书中有哪些关键的实体,并且记住这些实体的关系是怎么样的。

但是,现在的阅读理解任务的 benchmark 数据集并不能够针对这点进行测评,相反,多数问题可以通过 question 和 paragraph 之间的 pattern match 得到答案。

因此 DeepMind 提出了这个新的数据集 NarrativeQA,机器需要面对的是一整部书籍或电影剧本,在没有限定答案范围的前提下,机器需要从文本中找到最相关的段落并且总结出问题的答案。该任务十分具有挑战性。

那么,这个新的数据集理论上应该具备以下特征: 

  • 数据量足够大,用以满足神经网络的训练需求;

  • 问题和答案最好都是自然语言,且答案最好和多个片段相关或者需要从一大段话中总结出来;

  • 标注者要自己总结答案,从更高的层面理解文章中实体之间的关系,而且最好使用个性化的语言描述而不是从文中直接截取答案;

  • 从判别器的角度上讲,最好能够从答案的流畅性和正确性等两个角度进行判断;

  • 数据量需要控制在对于当前既有的模型来说十分困难,但仍处在人可以解决的范围内。

相关工作

主要提一下三个,SQuADMS MARCO SearchQA

SQuAD 的场景比较局限,给定的来源于维基百科短文本,众包标注的问题以及从短文本中直接截取的答案。 MS MARCO 提出了更开放的数据集,文本来自搜索引擎,真实的用户问题以及众包标注的答案,但是多数答案仍然不可避免的是文本中的原文,多数在 SQuAD 测评中取得不错成绩的模型在 MS MARCO 上仍然能够取得不俗的结果。SearchQA 的文本来自搜素引擎,问题来自 Jeopardy,对,就是当年 Watson 一战成名的那个节目,然后统计发现,数据集中 80% 的答案少于两个单词,99% 的答案少于 5 个单词,抽样调查发现 72% 的问题答案是命名实体。论文作者似乎对这种很不屑,但我想说命名实体是我们这些知识图谱人的心头爱啊。

数据集分析

数据集的问答对中主要会出现 Title,Question,Answer,Summary snippet,Story snippet 等字段,其中 title 确定了问答对的出处,即围绕着哪本书或剧本来进行阅读。其中相关片段由人工标注得出,但并不建议在训练中作为标注语料使用,且最终的测试集中不会出现该类片段,需要程序自行设计文本段落的定位方案。 

数据集的主体是小说以及电影剧本,问答集主要根据小说或电影的摘要信息进行提问,如果问答集同时提供了摘要,那么和现在的阅读理解任务也就没有什么不同了,但是,在没有提供摘要及标明相关段落的基础上,回答此类问题需要程序通读整部书籍,整理分析所有相关段落以进行阅读理解。

任务 

提供一组测试任务:分别以摘要和全文作为 context,测试基于答案生成和答案选择的两类阅读理解问题。测试指标包括 Bleu-1,Bleu-4,Rouge—L 以及基于答案排序的 MRR。

Baseline实验结果

文中提出了三类对比,一将其视为 IR 任务,二直接应用 LSTM 预测后缀词,三在全书范围内 IR+BiDAF。 最终的实验结果证明在全书范围内的阅读理解任务上,暂没有算法能够取得很好的结果。

入门Deepmind
1
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

信息抽取技术
Information extraction

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

知识图谱技术
Knowledge graph

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

模式匹配技术
pattern matching

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

PaperWeekly
PaperWeekly

PaperWeekly 是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

返回顶部