Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

IJCAI 2019 融合角色信息的多样性对话生成

论文名称:Exploiting Persona Information for Diverse Generation of Conversational Responses

论文作者:宋皓宇,张伟男,崔一鸣,王栋,刘挺

原创作者:哈工大 SCIR 博士生 宋皓宇

论文链接:https://arxiv.org/abs/1905.12188

1. 背景介绍

构建能够通过图灵测试[1]的开放域(Open domain)对话系统一直是人工智能研究的重要目标。在实际的应用中,开放域对话系统通常用于与用户建立联系,并在较长的一段时间内陪伴用户[2]。因此,开放域对话在内容上越丰富越好;同时,对于某一句输入,通常也会有不止一句的可用回复。对话内容的多样性可以直观的定义为:对于同样的或者意思相近的输入,系统能够给出用词或者句式不重复、表达不同含义的回复。这种“一对多”(One-to-many)的性质是对话生成任务区别于其它机器学习任务的一个重要特点。下面我们通过一个例子来解释一下这种性质:

图1. 基于角色信息的一对多回复示例

如图1所示,对于输入“What do you do for a living ?”,根据已有的信息可以做出不同的回复。这些回复不仅与输入高度相关,而且覆盖了已有信息的不同方面,同时还具有了较好的多样性:当“What do you do for a living ?”这个输入再次出现时,系统可以选择一个没有使用过的句子作为本次的回复。

另一方面,这个例子也展示出对话系统如何维持自己的角色信息(Persona)。给一些预先定义的Persona文本,对话系统需要同时根据这些Persona文本以及常规的输入来产生回复[3]。维持一致的角色信息对于对话系统有着重要的意义。一个自我矛盾(Inconsistent)的对话系统难以获得用户的信任,更无法通过图灵测试。此外,Persona作为一种额外的信息,也有助于对话系统生成更加具体的回复,降低类似“I don’t know”这类无聊回复(Dull response)出现的可能性。

在这项工作中,我们提出了一种基于记忆机制的结构来建模Persona信息,并结合了条件变分自编码器中的隐变量来捕捉回复中的多样性。我们在ConvAI2 的Persona-Chat数据集上进行了实验,结果表明:

(1)我们的模型成功在回复中融合了Persona信息;

(2)我们的模型生成了更多样和更吸引人的回复。

2. 模型

该项任务可以形式化的定义为:给定输入 和角色信息文本的集合,目标是基于 生成多样的回复 ,即。模型用四个随机变量来表示一组对话:输入 X 、目标回复 、角色信息文本 隐变量 Z 。我们定义这四个变量之间的依赖关系如图2所示:

图2. 概率图模型

其中实线表示了以参数生成模型,虚线表示了以参数变分推断过程。关于变分推断的细节请参考[4]。模型的首要目标就是学习条件概率

图3. 模型的网络结构

为了实现这一目标,我们构建了如图3所示的网络结构。在编码器一端,模型主要由变分自编码器和记忆网络两部分共同组成。变分自编码器通过先验网络(Prior network)和识别网络(Recognition network)编码 来获得隐变量 的表示。在训练过程中,隐变量 来自识别网络,先验网络以学习到和识别网络更相似的表示为目标;预测过程中,隐变量Z来自经过训练的识别网络(此时没有标准答案 的信息)。通过采样操作,我们可以获得某一分布下不同的 ,从而在解码器端生成不同的回复。

虽然变分自编码器建模了回复的多样性,但是仍然没有建模角色(Persona)信息。为此,我们引入了记忆网络[5]。每一条Persona文本都被视为独立的记忆存储在记忆网络中。经过编码的输入文本则作为对于记忆的查询,与记忆网络中的Persona信息进行计算。这里的记忆网络有两个作用:编码所有Persona信息以及选择与输入最相关的一项Persona信息文本。

为了更好的从编码信息中解码出Persona信息,我们在解码器一端使用了特殊的解码策略。在解码过程的每一个时刻 ,词表都被划分为两个不相交的集合,分别包含了来自Persona文本的词语和其它所有词语。解码器分别在两个词表上预测词语的概率分布。同时,每一个时刻 ,解码器还需要预测该时刻的词语是来自哪一个词表,这一任务与序列标注类似。最终的概率分布由词表概率乘上类别概率决定。

3. 实验

我们在ConvAI2的Persona-Chat数据集上进行了实验,并通过客观指标和人工打分的方式进行了评价。

单一的客观指标很难全面的评价生成回复的质量。在我们实验中,客观指标主要衡量了生成回复的多样性和对于Persona信息的覆盖率。实验结果如下:

图4. 客观指标结果

其中Dtinct-1和Dtinct-2是对多样性的度量,P.Cover是对Persona覆盖率的定量计算。带有*的数字则表示相对于所有基线模型具有统计显著性。 N 是同一句输入生成的回复数目。从客观指标中可以看出,我们的模型在生成回复的多样性以及Persona信息的覆盖率上具有明显的优势。

此外,对于生成回复的质量,我们进行了人工评价:

图5. 回复质量人工评价结果(N=5)

图6. 人工对比测试(N=5)

可以看出,在生成回复的质量上,我们的模型也具备很大的优势。

最后,我们给出一些生成回复的例子:

图7. 回复生成示例

4. 总结以及未来工作

这项工作着眼于利用对话系统的角色信息来产生多样化的回复,提出了一种基于角色信息的记忆结构。实验在ConvAI2 Persona-Chat数据集上进行。实验结果表明,我们的模型在多样性和角色信息覆盖方面取得了很好的效果。在将来的工作中,我们将探索如何在开放域对话过程中更好的建模用户的角色信息。

参考文献

[1].    [Turing, 1950] A. M. Turing. Computing machinery and intelligence. Mind, 59(236):433–460, 1950.

[2].    [Shum et al., 2018] Heung-Yeung Shum, Xiao-dong He, and Di Li. From eliza to xiaoice: challenges and opportunities with social chatbots. Frontiers of Information Technology & Electronic Engineering, 19(1):10–26, 2018.

[3].    [Zhang et al., 2018] Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. Personalizing dialogue agents: I have a dog, do you have pets too? In Proceedings of the 56th ACL, pages 2204– 2213, 2018.

[4].    [Kingma and Welling, 2013] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.

[5].    [Sukhbaatar et al., 2015] Sainbayar Sukhbaatar, Jason Weston, Rob Fergus, et al. End-to-end memory networks. In NIPS, pages 2440–2448, 2015.

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

理论IJCAI对话系统
相关数据
刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

变分推断技术

see Variational Bayesian methods (approximation)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

推荐文章
暂无评论
暂无评论~