吕鑫作者

ACL 2019 | 用于多跳推理的动态融合图网络

多文档问答是自然语言处理领域近期比较火热的一个研究问题,不同于传统的问答系统,多文档问答需要模型从数个文档中协同地寻找问题的答案,这对模型的多跳推理能力提出了很高的要求。

论文原文:https://arxiv.org/pdf/1905.06933.pdf

论文背景

基于文本的问答(Text-based QA)是自然语言处理领域的一个经典问题,大多数现有的方法都是侧重于在一段话中找到问题的答案。然而在实际的生活中,许多困难的问题往往需要在两个甚至多个文档中的文本中寻找答案的证据。为了推动这类困难问题的进一步研究,在去年的EMNLP 2018上,杨植麟等人提出了HotpotQA[1]数据集。

上图便是HotpotQA的一个问答示例,为了回答问出的问题,一个模型往往需要处理给出的全部的参考段落,在其中找到答案存在的证据。为了解决这类问题,这篇论文便提出了一个叫做动态融合图网络(DFGN)的模型。这个模型受人类一步步推理行为的启发,首先为文档中出现的实体构建图网络,之后从给定问题中提到的实体出发,沿着文档构造的实体图出发进行搜索,逐步给出文档中找出的相关实体作为最终答案。下图为该模型的总体示意图:

论文模型

1、段落选取

因为不是每个段落都和最终的问题相关,我们需要对段落们进行选取,仅仅选择那些相关的段落。这里论文作者使用了预训练的BERT[3]后面跟一个句子分类层,来预测每一个段落相关的概率(介于0和1之间)。如果一个段落里至少有一句话是和问题相关的,那么这个段落的标签就设为1。

2、实体图构建

作者首先使用斯坦福的NLP工具包对相关段落进行命名实体识别,识别出的每一个实体便作为图的一个节点。在以下三种情况会为两个实体之间添加一条边:(1)两个实体出现在同一个句子中(下图中的蓝色边);(2)同一个实体的每个表示(下图中的粉色边);(3)一个段落中的主实体(段落标题中的实体)和该段落中的其余实体(下图中的蓝色边)。

3、问题和段落表示

作者选取预训练的BERT为每个问题和选择的段落进行编码,获取其表示。之后在经过一个双向注意力机制层,来增强问题和段落之间的联系。

4、基于融合块的推理

如上图所示,融合块的推理是一个多跳的循环过程。首先对于段落会有一个Doc2Graph的过程,每个实体的表示由其对应的词的表示变换而来。然而并不是每一个实体都和问题是同等相关的,因而在此之后会有一个注意力网络来做soft mask,具体公式如下:

之后会在实体图上计算任意两个实体之间的注意力权重,方法类似于之前的GAT[2],具体公式如下:

下一步为通过新的实体表示和双向注意力机制对问题的表示进行更新:

之后经由一个LSTM网络,我们可以用实体图的信息更新段落的表示(Graph2Doc):

这里的M矩阵的含义为:如果段落中的第i个单词在第j个实体对应的mention中,那么M_ij为1,否则为0。

5、预测

作者使用最后一层的输出作为预测层的输入,相关句子、答案开始位置、答案结束位置和答案种类的logits分别如下:

最终使用这4个联合做交叉熵损失函数


实验结果

作者在HotpotQA数据集上做了实验,在private test set上的实验结果如下:

可以看出本论文提出的方法还是能够很好地解决多文档问答问题的。

参考文献:

[1] Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William Cohen, Ruslan Salakhutdinov, and Christopher D Manning. 2018. HotpotQA: A dataset for diverse, explainable multi-hop question answering. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2369–2380.

[2] Petar Velicˇkovic ́, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. 2018. Graph attention networks. In Proceedings of the International Conference on Learning Representations.

[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论深度学习因果推理计算机视觉智能写作图网络ACL 2019
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

推荐文章
暂无评论
暂无评论~