赛尔推荐 | 第28期

本栏目每周将推荐若干篇由师生精心挑选的前沿论文,分周三、周五两次推送。

本次推荐了四篇关于个性化聊天机器人、对话状态跟踪、简单词向量模型和注意力机制的论文。

1、推荐组:CR

推荐人: 赵正宇(研究方向:人机对话)

论文题目:Assigning personality/identity to a chatting machine for coherent conversation generation

作者:Qiao Qian, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu

出处:IJCAI-ECAI 2018

论文主要相关:个性化聊天机器人

简评:聊天机器人赋予人物角色特征是一项很具挑战性的工作。这篇文章在生成回复时考虑了聊天机器人所处对话场景的personality或identity,主要研究内容着眼于聊天机器人在涉及自身属性时是否可以给出与人设相符的答案,同时保证了前后回答的一致性。

为了给聊天机器人设定身份,文章使用有监督的属性检测器 (Profile Detector) 判断用户的问题是否提及聊天机器人的属性设定,以及具体哪一条预设的属性值;然后为了生成包含属性值的一致的回复,文章以属性值为分割点,从属性值到回复句的结尾训练forward decoder,从属性值到回复句的开头训练backward decoder,组成一个双向解码器 (Bidirectional Decoder) ,从而解码得到一个包含属性值的完整回复;此外,为了消除训练数据与预设属性值不一致的问题,文章使用无监督的属性值定位器 (Position Detector) 来帮助模型更好地训练。此工作使用从社交媒体上抓取的通用对话数据训练生成模型,进行的实验同时使用了自动评价和人工评价,实验结果表明模型生成的回复流畅、具有正确的逻辑并且语言更加多样化。

论文链接:

http://cn.arxiv.org/abs/1706.02861

数据链接:

http://coai.cs.tsinghua.edu.cn/hml/dataset/

2、推荐组:LA

推荐人:文灏洋(研究方向:对话系统)

论文题目:Global-Locally Self-Attentive Dialogue State Tracker

作者:Victor Zhong, Caiming Xiong, Richard Socher

出处:ACL 2018

论文主要相关:对话状态跟踪、任务型对话

简评:在对话状态跟踪任务中,如何成功抽取到训练实例很少的槽值对(slot-value pair)是一个未处理完善的问题。文章通过统计发现,虽然假设一个槽值对,其训练实例很少,意味着在训练数据中出现的次数不多;但是对于一段对话,出现至少一个槽值对,其训练实例在整个训练集中很少的概率还是很高的。一旦没有做好这样的槽值对的抽取,很容易产生错误级联,从而影响状态跟踪以及任务型对话流水线下游模块的性能。在前人工作中,通常对于每一个槽值对的预测都是独立的;文章为了试图解决上述问题,采用了一个全局模块加局部模块的方法,全局模块在不同的槽上共享参数,试图捕捉不同槽值的相关性;局部模块则是每个槽独立参数,用于捕捉与某个槽相关的特征表示。模型结构主要分为两块,编码器(encoder)与计分器(scorer)。编码器通过全局编码与局部编码,全局注意力与局部注意力机制,捕捉系统动作、用户回复、与预设槽值对的相关特征。两个计分器用来衡量给定的槽值对与对话历史之间的相关性,一个是衡量与用户回复之间,另一个是衡量与历史动作之间的(因为有些回复的信息不完全)。论文在DSTC2与WoZ两个数据集上均取得了最好的结果。同时,文章中的统计数据也表明,在具有较少训练实例数量的槽值对的预测上,模型可以取得较好的结果。

论文链接:

https://arxiv.org/pdf/1805.09655.pdf

3、推荐组:QA

推荐人:郭茂盛 (研究方向:文本蕴含、自然语言推理)

论文题目:Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms

作者:Dinghan Shen, Guoyin Wang, Wenlin Wang, Martin Renqiang Min, Qinliang Su, Yizhe Zhang, Chunyuan Li, Ricardo Henao, Lawrence Carin

出处: ACL 2018

论文主要相关: 简单词向量模型

简评:现有的基于深度学习自然语言处理模型大多利用了卷积神经网络或循环神经网络,模型参数众多、训练时间较长,该文中作者提出了一种简单词向量模型(Simple Word-Embedding-Based Model)来建立句子及文档表示,在若干自然语言处理任务(长文档分类、文本对匹配、短文本处理)上都取得了不错的结果。该模型的特点是参数少、训练快,在一些长文档分类任务上甚至超过了复杂模型。

论文链接:

http://people.ee.duke.edu/~lcarin/acl2018_swem.pdf

4、推荐组:RC

推荐人:牟文晶(研究方向:阅读理解)

论文题目:Word Attention for Sequence to Sequence Text Understanding

作者:Lijun Wu, Fei Tian, Li Zhao, JianHuang Lai, Tie-Yan Liu

出处:AAAI 2018

论文主要相关: 注意力机制、序列到序列学习

简评:注意力(Attention)机制是基于递归神经网络(RNN)的序列到序列学习框架的重要组成部分,且该机制在诸如神经机器翻译和摘要生成等许多文本理解任务中均有采用。在这些任务中,Attention机制计算出源句子(source sentence)中每个部分对于产生目标的重要程度。为了计算出这些重要程度,Attention机制会总结编码器RNN隐藏层状态中的信息,然后根据源句子的子序列表示为生成的目标词建立一个上下文向量。而这篇论文中向我们展示了一个额外的注意力机制称为词语注意力(word attention)机制,构建自己的词级表示,大大提高了序列到序列学习的性能。该Word Attention机制可以通过直接词级信息来丰富生成序列的上下文表示。此外,该文章建议使用上下文门(contextual gates)动态地组合子序列级和单词级上下文信息。从文章给出的摘要生成和神经机器翻译的实验结果表明,词级注意力机制显著改善了baseline结果。

论文链接:

https://pdfs.semanticscholar.org/b69a/c55a6cf1e675f3f84960f7bfa5946459128d.pdf

入门个性化聊天机器人对话状态跟踪任务型对话简单词向量模型注意力机制
1
相关数据
注意力机制技术
Attention mechanism

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

神经机器翻译技术
Neural Machine Translation

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

聊天机器人技术
Chatbot

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

生成模型技术
Generative Model

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

逻辑技术
Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

池化技术
Pooling

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。 近年来监督式深度学习方法(以反馈算法训练CNN、LSTM等)获得了空前的成功,而基于半监督或非监督式的方法(如DBM、DBN、stacked autoencoder)虽然在深度学习兴起阶段起到了重要的启蒙作用,但仍处在研究阶段并已获得不错的进展。在未来,非监督式学习将是深度学习的重要研究方向,因为人和动物的学习大多是非监督式的,我们通过观察来发现世界的构造,而不是被提前告知所有物体的名字。 至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人物
Caiming Xiong

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检所研究中心

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

推荐文章
从论文到测试:Facebook Detectron开源项目初探从论文到测试:Facebook Detectron开源项目初探
机器之心机器之心
14
赛尔推荐 | 第27期赛尔推荐 | 第27期
哈工大SCIR哈工大SCIR
项目实战:如何构建知识图谱项目实战:如何构建知识图谱
PaperWeeklyPaperWeekly
3
返回顶部