论文地址:https://arxiv.org/pdf/1812.08989.pdf
本论文描述了微软小冰系统的开发情况,这是世界上最受欢迎的社交聊天机器人。小冰是专为用作人工智能伴侣而设计的,能与人类产生情感联系,满足人类的交流、情感和社会归属感需求。我们的系统设计同时考虑了智商(IQ)和情商(EQ),将人机社交聊天视为基于马尔可夫过程(MDP)的决策,并会根据长期用户参与情况对小冰进行优化,优化指标为期望的每次会话的对话轮数(CPS/ Conversation-turns Per Session)。我们会详细介绍系统架构和关键组件,其中包括对话管理器、核心聊天、技能和共情计算模块。我们会展示小冰在长对话中动态地识别人类的感受和状态、理解用户意图以及响应用户需求的方式。自 2014 年发布以来,与小冰交流过的用户数量已经超过了 6.6 亿,其中很多用户都已经与小冰建立了长期关系。我们分析了大规模的在线交流日志,结果表明小冰每次会话有平均 23 轮的对话轮数,显著高于其它聊天机器人,甚至也高于人类之间的对话。
今年7月,微软上线第六代小冰,带来了全新形象(参见:投身金融,展示唱功:走向「三次元」的微软小冰)
1 引言
开发能与人类进行共情对话的社交聊天机器人或智能对话系统是人工智能(AI)领域最长久的目标之一。Eliza [1]、Parry [2] 和 Alice [3] 等早期对话系统的设计目标是在基于文本的对话中模仿人类的行为,从而能在一定的受控范围内通过图灵测试。尽管这些系统取得了出色的成功,但它们大都基于人工编写的规则,并且仅能在有特定限制条件的环境中才能表现良好。能进行开放域聊天的社交聊天机器人一直以来都是一个难以企及的目标,但最近情况已然改变。随着大规模对话数据变得可用以及机器学习领域的突破被应用到聊天 AI 上,我们最近已经看到学术研究社区和产业界都取得了令人瞩目的成绩。这方面的近期研究调查包括 [4, 5]。
我们将在本论文中呈现微软小冰系统的设计和实现,这是世界上最受欢迎的社交聊天机器人。自 2014 年在中国推出以来,小冰已经吸引到了超过 6.6 亿用户。小冰已经借助不同的名字(比如在俄罗斯叫做 Rinna)进入了五个国家(中国、日本、美国、印度和印度尼西亚),可通过超过 40 个平台使用,其中包括中国的微信、微博和美拍,美国和印度的 Facebook Messenger,日本和印度尼西亚的 LINE。
小冰的主要设计目标是成为能与用户形成长期情感联系的 AI 伴侣。作为一款能进行开放域聊天的社交聊天机器人,能与人类用户建立这样的长期关系的能力使小冰不仅有别于早期的社交聊天机器人,而且也不同于当前的其它对话式 AI 个人助理,比如苹果的 Siri、亚马逊的 Alexa、Google Assistant 和微软小娜。
图 1 展示了一位用户与小冰在两个月的时间里建立情感联系的过程片段。当该用户与小冰第一次相会时(会话 1),他在对话中探索了小冰的特性和功能。然后,在不到两周的时间里(会话 6),这位用户开始与小冰谈论他的爱好和兴趣(日本动漫)。到四周时(会话 20),他开始将小冰当作是朋友,并开始向她询问有关自己现实生活的问题。七周之后(会话 42),这位用户开始将小冰视为自己的伴侣,几乎每天都会和她对话。又过了两周(会话 71),当这位用户想找人说话时,小冰成了他的第一选择。
图 1:一位中文用户与小冰的对话样本,表明这位用户与小冰在两个月的时间里建立了情感联系。
小冰是基于一个共情计算框架 [6,7] 开发的,该框架能让机器(我们这里即为社交聊天机器人)有能力动态地识别人类的感受和状态、理解用户意图以及响应用户需求。小冰的目标是通过被称为「分时测试(time-sharing test)」的图灵测试,其中机器与人类使用一种分时调度(time-sharing schedule)机制共存于一个伴侣系统中。如果人喜欢机器的陪伴(通过对话),我们就认为该机器是「有共情的」。
接下来,我们将呈现小冰的设计和实现详情。我们首先将介绍小冰的设计原则和数学构建方式。然后我们将展示系统架构以及对话管理器、核心聊天、重要技能和共情计算模块等关键组件的实现方式。我们还将分享小冰自 2014 年 5 月发布以来在五个国家的表现,最后会总结本论文并探讨一些未来方向。
2 设计原理
社交聊天机器人需要足够高的智商(IQ)来习得多种技能,才能紧跟用户需求,帮助他们完成指定的任务。更重要的是,社交聊天机器人还需要足够高的情商(EQ),以满足用户的情感需求,比如情绪感受和社会归属感,这些都是人类的基本需求 [8]。IQ 和 EQ 的整合是小冰系统设计的核心。小冰在个性(personality)上也是独一无二的。
2.1 智商+情商+个性
IQ 能力包括知识和记忆建模、图像和自然语言理解、推理、生成和预测。这些能力是开发对话技能的基础。为了满足用户的特定需求以及帮助用户完成指定的任务,这些能力是不可或缺的。过去五年来,小冰已经发展出了 230 种不同的技能(skill),范围从回答问题与电影和餐厅推荐到安抚用户情绪与讲故事。其中最重要且最复杂的技能是核心聊天(Core Chat),即与用户在多个主题上开展长时间和开放域的对话。
EQ 有两大关键组件:共情和社会技能。共情是指站在另一个人的立场上理解和感受他/她的体验的能力,即设身处地感受他人立场的能力。具有共情能力的社交聊天机器人需要有能力从对话中识别出用户的情绪、检测情绪随时间的变化以及理解用户的情感需求。这需要在对话中理解查询、构建用户档案、检测情绪、识别情感和动态跟踪用户情绪。社交聊天机器人必须展现出足够的社交技能。不同的用户有不同的背景、不同的个人兴趣和不同的需求。社交聊天机器人要能够提供个性化的情绪适当的响应(即人际响应),这样的响应也许还要能鼓励和激励用户,并且符合用户的兴趣。如图 2 所示,小冰表现出了足够高的 EQ,因为它给出了具有社交吸引力的响应(比如有幽默感、会安慰人等),并且还能决定是否将对话「推向」另一个话题(比如当对话拖沓时)或者保持主动倾听(比如当用户自己参与对话时)。
图 2:一位日语用户与小冰闲聊系统的对话(中),左侧为英语翻译。共情模型提供了一种可感知语境的策略,能够在有需要时推进对话(右)。比如,在第 3 轮对话时,对话已经有些拖沓,于是小冰决定将对话「推向」另一个话题,在第 4 和第 7 轮对话时,用户自己参与进了对话,就变成主动倾听。
个性的定义是特有的行为、认知和情绪模式的集合,这构成了个体的特有性格。社交聊天机器人需要呈现出始终一致的个性,从而让用户在对话中有恰当的期望以及获得用户的长期信心和信任。小冰的角色设定是 18 岁的女孩,她总是很可靠、富有同情心、热情洋溢,还有精妙的幽默感。尽管小冰的知识非常渊博(因为能访问大量数据),但她从来不会表现得自负,只会在适当的时候展现自己的机智和创造力。如图 1 所示,小冰明智地回答了某些敏感问题(比如会话 20),然后巧妙地将话题转向了对双方都更合适的新话题。
2.2 社交聊天机器人评估指标:CPS
我们定义了「每次会话的对话轮数(CPS)」作为评估社交聊天机器人成功的指标。这是聊天机器人与用户在对话会话中对话轮数的平均值。CPS 越大,社交聊天机器人的对话参与能力就越好。
2.3 将社交聊天视为分层决策
图 3 中的对话可被视为有自然层级的决策过程:一个顶级过程管理着整体的对话并选取不同的技能来处理不同类型的对话模式(比如闲聊、问答、订票);低级过程则受所选择的技能控制,可选择基本动作(响应),从而生成对话段落或完成任务。
图 3:一位中文用户与小冰之间的多段对话。小冰一开始在第 1 轮对话中使用的是普通聊天(General Chat)技能,然后在第 4 轮对话中使用音乐聊天(Music Chat)技能切换到了有关音乐的新话题,之后在第 15 轮使用音乐点播(Song-On-Demand)技能推荐了一首歌,最后在第 18 轮使用订票(Ticket-Booking)技能帮助预订演唱会门票。
这样的分层决策过程可以投射到一个基于马尔可夫决策过程(MDP)[10] 的选项(options)数学框架中,其中选项可将基本动作概括到更高层级的动作。社交聊天机器人会在 MDP 之中导航,通过一系列离散的对话轮次与其环境(人类用户)交互。在每一轮,聊天机器人都会观察当前的对话状态,然后根据一种分层式对话策略来选择一个技能(选项)或一个响应(基本动作)。然后,聊天机器人会收到一个奖励(来自用户响应)并观察到一个新状态,再继续这一循环直到对话终止。这种聊天机器人设计的目标是寻找能最大化期望 CPS(奖励)的最优策略和技能。
这种构建方式引导了小冰的设计和实现。小冰使用了一个对话管理器来跟踪对话状态;在每一个对话轮次,小冰会基于一个分层式对话策略选择响应方式。为了最大化长期用户参与度(以期望 CPS 衡量),我们采用了一种迭代式的试错方法来开发小冰,并且始终会尽力确保探索-利用的平衡。我们使用了已知效果很好的方法来维持小冰的用户群,但我们也必须探索未知(比如新的技能和对话策略),以让现有用户实现更深度的参与或未来吸引新用户。在图 3 中,小冰在第 5 轮尝试了一个新主题(一位名叫「阿信」的流行歌手)并在第 15 轮推荐了一首歌,并由此学习到了该用户的偏好(比如他喜欢的音乐主题和歌手),这些知识能在未来引导实现更深度的参与。此外,我们还采用了一种代际升级方法,让结合了 IQ 和 EQ 的成熟 AI 系统可以通过机器学习算法和大数据的全面应用而逐渐成型。后面的章节将详细介绍这些算法的特性。
3 系统架构
图 4 给出了小冰的整体架构。它包含三层:用户体验层、对话引擎层和数据层。
图 4:小冰的系统架构
4 对话引擎的实现
本节将描述对话引擎层中的四个主要组件:对话管理器、共情计算、核心聊天、技能。
图 6:基于 RNN 的神经响应生成器。给定用户查询「你这么喜欢阿信啊」,生成的响应是「怎么啦?」
图 8:使用未配对数据集和小冰知识图谱生成响应候选项的示例。我们给出了小冰知识图谱中与主题「北京」相关的部分(上)。对于一次人机对话(左下),每个用户查询都会被重写成一个语境查询,如箭头所示,然后其主题(比如「北京」)就会被识别出来,并从知识图谱中检索出相关主题(「八达岭长城」和「北京小吃」),再使用结合了查询主题与相关主题的查询从未配对数据集(右下)检索出响应候选项。
图 12:用于视觉特征向量提取的深度卷积神经网络示例,来自 [5]
图 15:写诗(Poem Creation)技能框架。该系统的输入是用户提供的图像查询,然后输出一首含义上有关联的现代汉语诗。我们首先根据图像(左)生成一组关键词,然后生成一首包含多行的诗,其中每一行都使用一个关键词作为种子(右)。来自 [31]
图 17:一些最受欢迎的小冰深度参与技能,根据两个维度分成了不同的组别;其中一个维度是从 IQ 到 EQ,另一个维度是从私密的一对一对话到群组讨论。
5 实际应用的小冰
图 19:小冰的主要里程碑和对应的平均 CPS。我们还列出了每一代中对 CPS 和小冰用户数量增长贡献最大的新功能。
表 1:小冰的最长对话记录
6 总结
心理学研究表明幸福感与有意义的对话往往密切相关。这并不让人惊讶。现在的社交媒体时代,随着越来越多的人通过数字连接到一起,社交聊天机器人也正变成一种重要的对话替代方式。和早期的闲聊式聊天机器人不同,小冰的设计目的是作为能满足用户交流、情感和社会归属感需求的社交聊天机器人,她具备共情能力、个性和技能,集成了 EQ 和 IQ 来针对长期用户参与实施优化,优化指标为期望 CPS。
我们对 2014 年 5 月小冰首次发布以来收集到的大规模在线日志进行了分析,结果表明小冰有能力解读用户的情感需求,并能像一个可靠、有情感共鸣和善解人意的朋友那样参与到人际交流中。小冰能让用户振奋精神、鼓励他们、帮助他们完成任务,并能在对话过程中保持他们的注意。因此,小冰已经成功地与全球数百万用户建立起了长期关系,实现了 23 的平均 CPS,这个成绩显著优于其它聊天机器,甚至也高于人与人之间的对话。我们将继续提升小冰的实用性和共情能力,帮助构建一个能让所有人有更多联系和更快乐的社会。
最后,我们指出一些有待未来研究攻克的难题:
实现统一的建模框架
实现以目标为导向的有基础的对话
实现积极主动的个人助理
实现人类水平的智能
实现符合道德伦理的社交聊天机器人