杨植麟、齐鹏、张赛峥作者路雪编译GitHub选自

「火锅问答」是啥?面向自然语言和多步推理问题,新型问答数据集HotpotQA面世

近日,来自斯坦福、CMU 和蒙特利尔大学的三名中国学生推出了新型问答数据集 HotpotQA,该数据集面向自然语言和多步推理问题。Emmm,从名字来看,这三位小朋友貌似很喜欢吃火锅~


「火锅兄弟团」成员:
  • 作者杨植麟目前博士就读于卡内基梅隆大学,师从 Ruslan Salakhutdinov 教授(苹果公司 AI 负责人)和 William Cohen 教授从事深度学习方面的研究。

  • 作者齐鹏目前博士就读于斯坦福大学,师从 Christopher Manning 教授从事自然语言处理方面的研究。

  • 作者张赛峥目前博士就读于蒙特利尔大学,师从 Yoshua Bengio 教授从事深度学习自然语言处理方面的研究。

HotpotQA 数据集的作者写了一篇博客,介绍了这个「让人看饿了」的数据集:

你是否好奇过以下问题:

  • 我们都知道 Facebook 总部在加州,那你知道 Facebook 的诞生地在哪个城市吗?

  • 吃鸡和王者农药这两款游戏到底哪个玩家多一些?

  • 如果你是一个吃货,那你每天要在跑步机上跑多久才能消耗掉你今天偷吃的十包辣条的热量?

乍一看这些问题有些复杂,然而作为人类,回答这些问题并不难。

比如第一个问题,你只要先在某百科上找到小扎在哈佛大学的寝室创立 Facebook 这一事实,而另一个百科页面则告诉你哈佛大学在美国麻省的剑桥市。又如第二个问题,你可以在网上的某两篇新闻中搜索到吃鸡和农药各自的活跃用户数量,两个数字一比对结果便一目了然。而对于第三个问题,你可以首先在辣条官网上发现辣条的卡路里说明,然后在健身网站上搜索到成年人在跑步机上挥汗一小时消耗的热量,最后计算一番便能得出答案。

总结下来,要回答这些问题,我们需要定位多个信息来源并从中找到最相关的部分,并且基于这些信息进行多步推理和理解。一个机智的机器学习研究者看到这里一定会问了:那目前的机器算法是否也可以进行这种「基于多个信息内容的多步推理 (multi-hop reasoning)」并回答问题呢?

怀揣着同样的疑问,我们对目前主流的问答系统 (question answering (QA) system) 以及相关的大规模数据集 (large-scale QA dataset) 进行了调研,结果稍显悲剧:对于目前主流的问答数据集(例如斯坦福的 SQuAD 数据集 [1]),问题的答案基本都在单一文档的单一(或连续的)句子中,并且这类问题大多可通过对问题和单一文档使用类似关键词匹配(keyword matching)的方式来回答。基于这些数据集训练的模型虽然在这类问题上表现不俗,但是它们是否有基于多个信息进行多步推理的能力依旧是个未知数。同时我们也注意到,一些研究者已经开始对机器多步推理问答的研究:例如 Facebook 之前发布的 bAbI 数据集 [2] 就尝试探究机器基于多条信息的推理综合能力,然而由于其数据本身并不是来源于真实文本而是通过人造模版生成的,这使得该数据集在实际场景中的性能大打折扣。自去年以来,陆续有研究者开始尝试收集大规模多步推理问答数据集,其中典型的工作包括 TriviaQA [3] 和 QAngaroo [4]。在 TriviaQA 中,每个问题通常附带了多个相关文档用来获取答案(这些文档是通过信息检索的方式得到的)。然而相关文档的增多并不能保证回答某个问题一定用到跨文档的多步推理,实际上,该数据库中大部分问题仍旧可以只通过多个文档中的某一个直接回答。另一方面,QAngaroo 利用知识图谱技术构建了一批确实需要多步推理才能回答的问题。然而,该数据集的问题和答案的种类严重受限于知识图谱预先定义的模式 (schema) 本身,同时问题格式也被限制为知识图谱的三元组形式(triple)而非自然语言。此外,以上提到的所有数据集在给出相关问题的同时仅提供相关文档本身,并没有给出更细粒度和更直接的推理线索。

基于以上种种问题,我们(来自 CMU、Stanford 和 Mila 的联合小分队)提出了一个名为「HotpotQA」的数据集(中文名又作「火锅问答」。注:这篇文章始于作者们在纽约法拉盛的一次火锅聚餐,同时「火锅中多种食材混合产生的终极美味」也暗喻多源多步推理)。HotpotQA 是作者们对机器多步推理问答的更进一步探究,它有以下几个重要特点:

  • 问题被设计为必须使用多步推理来回答。为了收集这些问题和答案,我们使用了亚马逊的众包服务 (Amazon Mechanical Turk)。我们向众包工人展示两个维基百科选段,通过一些用户交互设计保证他们可以提问出「必须基于两个选段进行多步推理才能得到答案」的问题。

  • 问题本身不会受限于任何预设的知识图谱。我们从维基百科中收集了多种类型多种主题的选段,并且不限制问题的类型。这使得最终收集的数据(问题、答案、选段)以自然语言的形式呈现,并且在内容和难度上具有多样性。

  • 对于每一个问题,我们还收集了回答它所需要的更细粒度的支持推理线索 (supporting fact)。这些线索可以用来提升模型的可解释性 (explainability)。相比于之前基于整篇文章进行训练的粗粒度方式,HotpotQA 允许模型利用这些更加准确的推理线索来提升表现,并且迫使模型在回答问题的同时给出它基于哪些事实进行的推理,不像以前的模型只给出一个答案,知其然而不知其所以然。

话不多说,下面是 HotpotQA 里面的一个样例问题,在选段中我们用绿色标出了用来回答该问题的支持推理线索。

除此之外,HotpotQA 的问题种类也十分多样。除了一些常见的多步推理问题,还包括在大规模文本问答数据集中首次出现的比较型问题 (comparison question),例如文章开头的「吃鸡 vs 农药」。下图展示了 HotpotQA 中的问题种类以及占比情况:

俗话说,酒逢知己千杯少,话不投机半句多。相信耐心读到此处还没有关掉页面的看官一定也像我们一样对多步推理问答充满了好奇,那不妨移步我们的 EMNLP2018 paper 一探我们的方法细节。同时对于那些「我的模型已经饥渴难耐」的同仁,你们一定要访问 HotpotQA 的官方网站,我们在此处设擂,欢迎前来砸场子!你们模型的提交是机器多步推理进步的动力!

以上。

火锅兄弟团 Zhilin、Peng、Saizheng

HotpotQA 官网:https://hotpotqa.github.io/

论文:HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

论文链接:https://arxiv.org/pdf/1809.09600.pdf

摘要:现有的问答(QA)数据集无法训练可执行复杂推理和提供答案解释的 QA 系统。我们创建了一个新型问答数据集 HotpotQA,该数据集包含 11.3 万个基于维基百科的问答对,具备以下四个特点:

1. 问题的答案必须要基于多个支持文档;

2. 问题多样化,不局限于任何已有的知识库或知识模式;

3. 提供句子级别的支持推理线索(supporting fact),允许 QA 系统用强大的监督进行推理,并对预测结果进行解释;

4. 提供了新型模拟比较型问题,来测试 QA 系统提取相关线索、执行必要对比的能力。

我们展示了 HotpotQA 数据集对最新 QA 系统是有难度的,支持推理线索帮助模型提升性能、做出可解释的预测。

参考文献:

[1] "SQuAD: 100,000+ Questions for Machine Comprehension of Text", Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang. EMNLP 2016.

[2] "Towards AI Complete Question Answering: A Set of Prerequisite Toy Tasks", Jason Weston, Antoine Bordes, Sumit Chopra, Alexander M. Rush, Bart van Merriënboer, Armand Joulin and Tomas Mikolov. arXiv:1502.05698.

[3] "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension", Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer. ACL 2017.

[4] "Constructing Datasets for Multi-hop Reading Comprehension Across Documents", Johannes Welbl, Pontus Stenetorp, Sebastian Riedel. TACL 2018.

工程自然语言处理对话系统数据集
4
相关数据
约书亚·本吉奥人物

约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是2本书和超过200篇出版物的作者,在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域的研究被广泛引用。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~