Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

舒意恒作者南京大学硕士生学校知识图谱研究方向

ACL 2020 | 多跳问答的基于对齐的无监督迭代解释检索方法

论文标题:Unsupervised Alignment-based Iterative Evidence Retrieval for Multi-hop Question Answering

论文来源:ACL 2020

论文链接:https://arxiv.org/abs/2005.01218

背景

机器学习算法的可解释性仍然是机器学习在真实世界应用中的一个关键的未解决的问题。作者认为,当前许多 QA 的神经网络方法的研究缺乏对推断过程的人类可理解的解释,而这阻碍了这些方法应用于真实的应用中。

该文关注于多跳、多项选择的问答系统,并尝试提供可解释性。这类问答系统的特点是,答案文本可能不是来自于实际的知识库文段;并且在给定问题时,要求该问答系统具有能够将候选答案链接起来的推理能力。

该文将所提出的模型称为 AIR (Alignment-based Iterative Retriever). 它尝试从非结构化的知识库中,检索高质量的解释语句。即该研究关注的是检索到一个问答的解释,而不是检索到一个问题的答案。作者认为,该方法提供的解释不仅有助于解释回答一个问题的推理步骤,并且也能显著提升问答系统本身的性能。

1.1 QA 的可解释性

关注于可解释性的 QA 方法可以大致分为三个主要类别:

  • 监督方法,要求训练时标注解释。然而,标签数据不总是可用的,并且标签当中可能含有噪音
  • 潜在方法,根据答案质量抽取解释,不需要显式的训练数据。例如强化学习和 PageRank 的思路。这类方法通常需要更多的问题-答案对数据。
  • 无监督方法,使用无监督算法来抽取解释。

如图是一个需要多跳推理的样例问题。AIR 检索到的两个平行的解释链条提供了不完美的,但是与给定问题相关的解释。

方法

与监督方法不同,AIR 是完全无监督的,并且可以轻松地从小文本的候选解释上扩展到大规模的知识库

该方法检索解释语句的过程可以简单理解为一个迭代过程,在每轮迭代中,该方法使用对齐模型来找到针对当前查询在嵌入空间中最接近的解释语句。在每轮迭代后,该方法调整它的查询,以关注当前解释集合中缺失的信息。

该文所提出的 QA 方法包含两个组件:

  • 无监督的迭代组件:在给定查询时,检索解释链。
  • 答案分类组件:给定原问题和已检索到的解释,将候选答案分类为正确或错误。

下面分别对这两个组件进行简介。

2.1 迭代的解释检索

给定查询,AIR 迭代地构建解释链。AIR 初始化查询为拼接后的问题和候选答案。然后,AIR 迭代地重复两个步骤:

  • 它使用对齐 -IR 方法 [1] 检索给定当前查询的最突出的解释句子。解释句子来自于数据集特定的知识库
  • 它调整查询以关注于缺失的信息,即当前解释链条没有覆盖的关键词。

AIR 可以动态地将新术语添加到查询中。从之前检索到的解释中推导出多跳的检索。这两步反复进行,直到达到与参数无关的终止条件为止。

如图展示了 AIR 在 MultiRC 上迭代检索解释句子的情况。

2.1.1 对齐

2.1.2 剩余项

2.1.3 覆盖

2.1.4 AIR 检索过程

2.2 答案分类

AIR 的解释链可以输入到任何监督的答案分类方法中,作者在实验中使用 RoBERTa。

以 MultiRC 为例,作者将查询(问题和候选答案文本组合而成)和解释文本拼接,并在两段文本中使用 [SEP]。然后对 [CLS] 标签使用 sigmoid 函数执行二分类任务(正确答案与否)。

在依赖大知识库的 QA 任务中,可能会出现:存在多个支持正确答案的解释链。为了利用这种答案分类的冗余性,作者扩展 AIR 以提取平行的解释链条。

即提取 N 条平行的解释链条,运行 AIR N 次,且确保每条链条的第一个解释句子是不同的。在检索出 N 条平行解释链后,该方法将所有单独的解释句子联合起来,创建该候选答案的支持解释文本。

实验与分析

作者在 MultiRC [3] 和 QASC [4] 两个数据集上进行了广泛的实验。

如图是 MultiRC 数据集上开发和测试集的实验结果。

AIR 在 MultiRC 上超越了以往的方法,包括有监督的方法,并且平行解释链的方法提升了模型表现。

如图是 QASC 数据集上的 QA 和解释选择的表现。AIR 在 QASC 上同样取得了最优效果,并且平行解释链的方法提升了模型表现。

3.1 基线算法

在之前介绍的算法外,作者还引入了一些基线算法。

MultiRC 上的 3 个基线算法:

  1. 所有的段落文本馈送给 RoBERTa 分类器
  2. 使用对齐方法 [5] 检索得到 top-k 句子,该方法用于比较 AIR 的查询重构
  3. 使用监督的 RoBERTa 分类器进行训练,为每个查询选择正确的解释

QASC 上的 2 个基线算法:

  1. 不包含任何解释
  2. 使用对齐方法检索得到 top-k 句子

小结

作者介绍了一种简单的、无监督的问答解释检索方法。该方法结合了三个想法:(a) 一种无监督的对齐方法,利用 GloVe 嵌入将问题和答案与解释句子进行软对齐;(b) 一个迭代过程,该迭代过程将重点放在现有解释未覆盖的查询剩余项上;(c) 一个简单的停止条件,当给定问题和候选答案中的所有项都被检索到的解释句子集合覆盖时,该迭代过程结束。

作者认为,尽管该方法简单,且只依赖于 GloVe 嵌入(不使用 BERT 的原因是生成嵌入的计算代价过高),但在两个数据集上该方法在解释选择任务的表现上优于以往方法。


参考文献

[1] Vikas Yadav, Steven Bethard, and Mihai Surdeanu. 2019a. Alignment over heterogeneous embeddings for question answering. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, (Long Papers), Minneapolis, USA. Association for Computational Linguistics.

[2] Jeffrey Pennington, Richard Socher, and Christopher Manning. 2014. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543.

[3] Daniel Khashabi, Snigdha Chaturvedi, Michael Roth, Shyam Upadhyay, and Dan Roth. 2018a. Looking beyond the surface: A challenge set for reading comprehension over multiple sentences. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 252–262.

[4] Tushar Khot, Peter Clark, Michal Guerquin, Peter Jansen, and Ashish Sabharwal. 2019a. Qasc: A dataset for question answering via sentence composition. arXiv preprint arXiv:1910.11473.

[5] Sun Kim, Nicolas Fiorini, W John Wilbur, and Zhiyong Lu. 2017. Bridging the gap: Incorporating a semantic similarity measure for effectively mapping pubmed queries to documents. Journal of biomedical informatics, 75:122–127.

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论ACL 2020
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~