赛尔推荐 | 第22期

本栏目每周将推荐若干篇由师生精心挑选的前沿论文,分周三、周五两次推送。

本次推荐了四篇关于深度强化学习、对话状态跟踪、任务型对话、机器阅读理解和问答系统的论文。

1、推荐组:CR

推荐人:宋皓宇(研究方向:人机对话,自然语言处理

论文题目: Deep Reinforcement Learning that Matters

作者:Peter Henderson, Riashat Islam, Philip Bachman, Joelle Pineau, Doina Precup, David Meger

出处:AAAI 2018

论文主要相关:深度强化学习

简评:近年来深度强化学习在诸多领域都得到了成功的应用。然而,深度强化学习算法缺少有效的评价指标,这导致了复现与深度强化学习相关的论文实验结果很困难,后续工作在此基础上进行的对比甚至可能毫无意义。该论文利用标准的强化学习评测环境OpenAI Gym,对目前主流的深度强化学习算法进行了一系列的定量实验,探讨了到底哪些因素对于深度强化学习算法真正重要,对于深度强化学习算法的使用者有着启发意义。该论文的实验十分充分,最后附带了18页的补充材料用以展示相关实验结果。

论文链接:

https://arxiv.org/pdf/1709.06560.pdf

2、推荐组:LA

推荐人:文灏洋(研究方向:对话系统)

论文题目:An End-to-end Approach for Handling Unknown Slot Values in Dialogue State Tracking

作者: Puyang Xu, Qi Hu

出处:ACL 2018

论文主要相关:对话状态跟踪、任务型对话

简评:本文讨论了一个在之前的对话状态跟踪任务中很少讨论的问题——如何在对话状态跟踪时处理未登录的槽值。在之前的相关工作中,基本都假设对话具有有预定义的槽以及槽对应的值的集合,这样一个对话状态可以表示为对每一个槽,算出其对应的值的概率分布的形式。但事实上在真实对话中,一些值(如数值、地点等)是很难表示为一个固定的集合的。所以处理这个问题,对于任务型对话系统的整体性能提升有着重要的意义。本文以将对话历史依次连接为一个完整的序列作为输入,借助Pointer Network的形式,对每一个槽,计算算出前后两个指针的位置,将两指针夹住的词组当做该槽在当前状态中对应的值。对于在句子中难以表达出来的值(如dontcare),利用在句子表示上训练的分类器来对其分类。从某种角度来说,使用指针的思路很像是在槽填充(slot filling)任务中,对某一个槽值打上的一系列标签,所以这种方式也很像是端到端地在对话状态跟踪中融入槽填充方法。论文还讨论了训练中出现的特征协同适应(feature co-adaption)问题。即模型可能通过训练记住槽值,而不是训练出依据上下文信息推断出某处为槽值的能力。论文通过利用一个预定义值词典,随机将输入的句子中出现的词的词向量替换为0,来提高模型识别上下文信息的能力。模型在DSTC2上取得了很好的结果,通过对比实验也充分展现出其处理未登录词的能力。

论文链接:

https://arxiv.org/pdf/1805.01555.pdf

3、推荐组:QA

推荐人:妥明翔(研究方向:深度问答)

论文题目:Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification

作者:Yizhong Wang, Kai Liu, Jing Liu, Wei He, Yajuan Lyu

出处:ACL 2018

论文主要相关:机器阅读理解、问答系统

简评:问答系统主要通过分析搜索引擎返回的相关文档,生成一个问题的最终答案。典型问答系统评测任务如SQuAD,每个问题给定的相关文档都只有一篇,而且相对较短。而实际情况中搜索引擎返回的相关文档都不止一篇而且篇幅较大,微软的英文数据集MS-MARCO和百度的中文数据集DuReader都是一个问题对应多个相关文档,因此更符合实际应用场景。该文章就是基于这两个评测任务进行的研究,提出了一种端到端的跨篇章答案验证的机器阅读理解模型。模型分为三部分:答案边界预测,答案内容建模,跨篇章答案验证。答案边界预测使用微软在SQuAD上使用的R-net模型,对每一个相关文档生成答案,这样就得到了多个答案。答案内容建模基于概率模型生成每个答案的表示,这些表示主要用于跨篇章答案验证。跨篇章答案验证通过attention机制,整合所有生成的候选答案的信息,计算出每个答案的得分,以选出最佳答案。训练过程是通过最小化三个部分损失函数的和进行联合训练。该模型在MS-MARCO和DuReader上都达到了state-of-art的结果。

论文链接:

https://arxiv.org/pdf/1805.02220.pdf

4、推荐组:RC

推荐人:朱海潮(研究方向:篇章分析、问答)

论文题目:Efficient and Robust Question Answering from Minimal Context over Documents

作者:Sewon Min, Victor Zhong, Richard Socher, Caiming Xiong

出处:ACL2018

论文主要相关:问答

简评:现有的基于神经网络的机器阅读理解模型取得了非常显著的成功,在某些评测语料上取得与人类相当的结果,但同时由于这些模型需要建模原文和问题之间复杂的交互,导致这些模型难以扩展到更长的文本上,如TriviaQA数据集中的原文。而且有工作发现在不影响回答问题的前提下对原文进行简单的替换、插入随机内容等修改,会使回答的正确性急剧下降,说明模型的鲁棒性不足。而且,论文作者发现大多数问题仅通过原文中少数几个句子就可以回答。

基于以上的观察,本文提出使用简单的句子选择器来选择用于回答问题的最少句子集合,替代完整原文作为问答模型的输入。以DCN+和S-Reader两个十分有效的问答模型为基础进行实验,结果表明以精简的上下文作为输入,在SQuAD、NewsQA、TriviaQA、SQuAD-Open等数据集上取得与以完整上下文为输入相当甚至更好的结果。同时,在SQuAD-Adversarial上取得了远超之前模型的结果,证明这种方法在不改变模型结构的前提下,很好的提高了系统的鲁棒性。论文的分析和实验也是非常值得学习和借鉴的。同时本文不同于一般的对模型结构进行修改的阅读理解论文,从一个独特的角度来研究、分析阅读理解任务。

论文链接:

https://arxiv.org/abs/1805.08092

本文来源于哈工大SCIR

原文链接点击即可跳转

入门
1
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度强化学习技术
Deep reinforcement learning

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

损失函数技术
Loss function

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

概率模型技术
probabilistic models

概率模型(Statistical Model,也稱為Probabilistic Model)是用来描述不同随机变量之间关系的数学模型,通常情况下刻画了一个或多个随机变量之间的相互非确定性的概率关系。 从数学上讲,该模型通常被表达为 ,其中 是观测集合用来描述可能的观测结果, 是 对应的概率分布函数集合。

问答系统技术
Question Answering

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人物
Caiming Xiong

推荐文章
资源:10份机器阅读理解数据集
PaperWeekly1
北大与百度提出多文章验证方法:让机器验证阅读理解候选答案
机器之心1
赛尔推荐
哈工大SCIR
返回顶部