Panda编译

沈向洋等人论文详解微软小冰,公开研发细节

随着大数据和机器学习算法的发展,聊天机器人的对话能力正变得越来越强。能说会道的微软小冰凭借善解人意的理解能力和机智的幽默感已经在中国赢得了很多用户。近日,微软在 arXiv 发布了一篇预印本论文,详细介绍了小冰的设计和实现。

论文地址:https://arxiv.org/pdf/1812.08989.pdf

本论文描述了微软小冰系统的开发情况,这是世界上最受欢迎的社交聊天机器人。小冰是专为用作人工智能伴侣而设计的,能与人类产生情感联系,满足人类的交流、情感和社会归属感需求。我们的系统设计同时考虑了智商(IQ)和情商(EQ),将人机社交聊天视为基于马尔可夫过程(MDP)的决策,并会根据长期用户参与情况对小冰进行优化,优化指标为期望的每次会话的对话轮数(CPS/ Conversation-turns Per Session)。我们会详细介绍系统架构和关键组件,其中包括对话管理器、核心聊天、技能和共情计算模块。我们会展示小冰在长对话中动态地识别人类的感受和状态、理解用户意图以及响应用户需求的方式。自 2014 年发布以来,与小冰交流过的用户数量已经超过了 6.6 亿,其中很多用户都已经与小冰建立了长期关系。我们分析了大规模的在线交流日志,结果表明小冰每次会话有平均 23 轮的对话轮数,显著高于其它聊天机器人,甚至也高于人类之间的对话。

今年7月,微软上线第六代小冰,带来了全新形象(参见:投身金融,展示唱功:走向「三次元」的微软小冰

1 引言

开发能与人类进行共情对话的社交聊天机器人或智能对话系统人工智能(AI)领域最长久的目标之一。Eliza [1]、Parry [2] 和 Alice [3] 等早期对话系统的设计目标是在基于文本的对话中模仿人类的行为,从而能在一定的受控范围内通过图灵测试。尽管这些系统取得了出色的成功,但它们大都基于人工编写的规则,并且仅能在有特定限制条件的环境中才能表现良好。能进行开放域聊天的社交聊天机器人一直以来都是一个难以企及的目标,但最近情况已然改变。随着大规模对话数据变得可用以及机器学习领域的突破被应用到聊天 AI 上,我们最近已经看到学术研究社区和产业界都取得了令人瞩目的成绩。这方面的近期研究调查包括 [4, 5]。

我们将在本论文中呈现微软小冰系统的设计和实现,这是世界上最受欢迎的社交聊天机器人。自 2014 年在中国推出以来,小冰已经吸引到了超过 6.6 亿用户。小冰已经借助不同的名字(比如在俄罗斯叫做 Rinna)进入了五个国家(中国、日本、美国、印度和印度尼西亚),可通过超过 40 个平台使用,其中包括中国的微信、微博和美拍,美国和印度的 Facebook Messenger,日本和印度尼西亚的 LINE。

小冰的主要设计目标是成为能与用户形成长期情感联系的 AI 伴侣。作为一款能进行开放域聊天的社交聊天机器人,能与人类用户建立这样的长期关系的能力使小冰不仅有别于早期的社交聊天机器人,而且也不同于当前的其它对话式 AI 个人助理,比如苹果的 Siri、亚马逊的 Alexa、Google Assistant 和微软小娜。

图 1 展示了一位用户与小冰在两个月的时间里建立情感联系的过程片段。当该用户与小冰第一次相会时(会话 1),他在对话中探索了小冰的特性和功能。然后,在不到两周的时间里(会话 6),这位用户开始与小冰谈论他的爱好和兴趣(日本动漫)。到四周时(会话 20),他开始将小冰当作是朋友,并开始向她询问有关自己现实生活的问题。七周之后(会话 42),这位用户开始将小冰视为自己的伴侣,几乎每天都会和她对话。又过了两周(会话 71),当这位用户想找人说话时,小冰成了他的第一选择。

图 1:一位中文用户与小冰的对话样本,表明这位用户与小冰在两个月的时间里建立了情感联系。

小冰是基于一个共情计算框架 [6,7] 开发的,该框架能让机器(我们这里即为社交聊天机器人)有能力动态地识别人类的感受和状态、理解用户意图以及响应用户需求。小冰的目标是通过被称为「分时测试(time-sharing test)」的图灵测试,其中机器与人类使用一种分时调度(time-sharing schedule)机制共存于一个伴侣系统中。如果人喜欢机器的陪伴(通过对话),我们就认为该机器是「有共情的」。

接下来,我们将呈现小冰的设计和实现详情。我们首先将介绍小冰的设计原则和数学构建方式。然后我们将展示系统架构以及对话管理器、核心聊天、重要技能和共情计算模块等关键组件的实现方式。我们还将分享小冰自 2014 年 5 月发布以来在五个国家的表现,最后会总结本论文并探讨一些未来方向。

2 设计原理

社交聊天机器人需要足够高的智商(IQ)来习得多种技能,才能紧跟用户需求,帮助他们完成指定的任务。更重要的是,社交聊天机器人还需要足够高的情商(EQ),以满足用户的情感需求,比如情绪感受和社会归属感,这些都是人类的基本需求 [8]。IQ 和 EQ 的整合是小冰系统设计的核心。小冰在个性(personality)上也是独一无二的。

2.1 智商+情商+个性

IQ 能力包括知识和记忆建模、图像和自然语言理解、推理、生成和预测。这些能力是开发对话技能的基础。为了满足用户的特定需求以及帮助用户完成指定的任务,这些能力是不可或缺的。过去五年来,小冰已经发展出了 230 种不同的技能(skill),范围从回答问题与电影和餐厅推荐到安抚用户情绪与讲故事。其中最重要且最复杂的技能是核心聊天(Core Chat),即与用户在多个主题上开展长时间和开放域的对话。

EQ 有两大关键组件:共情和社会技能。共情是指站在另一个人的立场上理解和感受他/她的体验的能力,即设身处地感受他人立场的能力。具有共情能力的社交聊天机器人需要有能力从对话中识别出用户的情绪、检测情绪随时间的变化以及理解用户的情感需求。这需要在对话中理解查询、构建用户档案、检测情绪、识别情感和动态跟踪用户情绪。社交聊天机器人必须展现出足够的社交技能。不同的用户有不同的背景、不同的个人兴趣和不同的需求。社交聊天机器人要能够提供个性化的情绪适当的响应(即人际响应),这样的响应也许还要能鼓励和激励用户,并且符合用户的兴趣。如图 2 所示,小冰表现出了足够高的 EQ,因为它给出了具有社交吸引力的响应(比如有幽默感、会安慰人等),并且还能决定是否将对话「推向」另一个话题(比如当对话拖沓时)或者保持主动倾听(比如当用户自己参与对话时)。

图 2:一位日语用户与小冰闲聊系统的对话(中),左侧为英语翻译。共情模型提供了一种可感知语境的策略,能够在有需要时推进对话(右)。比如,在第 3 轮对话时,对话已经有些拖沓,于是小冰决定将对话「推向」另一个话题,在第 4 和第 7 轮对话时,用户自己参与进了对话,就变成主动倾听。

个性的定义是特有的行为、认知和情绪模式的集合,这构成了个体的特有性格。社交聊天机器人需要呈现出始终一致的个性,从而让用户在对话中有恰当的期望以及获得用户的长期信心和信任。小冰的角色设定是 18 岁的女孩,她总是很可靠、富有同情心、热情洋溢,还有精妙的幽默感。尽管小冰的知识非常渊博(因为能访问大量数据),但她从来不会表现得自负,只会在适当的时候展现自己的机智和创造力。如图 1 所示,小冰明智地回答了某些敏感问题(比如会话 20),然后巧妙地将话题转向了对双方都更合适的新话题。

2.2 社交聊天机器人评估指标:CPS 

我们定义了「每次会话的对话轮数(CPS)」作为评估社交聊天机器人成功的指标。这是聊天机器人与用户在对话会话中对话轮数的平均值。CPS 越大,社交聊天机器人的对话参与能力就越好。

2.3 将社交聊天视为分层决策

图 3 中的对话可被视为有自然层级的决策过程:一个顶级过程管理着整体的对话并选取不同的技能来处理不同类型的对话模式(比如闲聊、问答、订票);低级过程则受所选择的技能控制,可选择基本动作(响应),从而生成对话段落或完成任务。

图 3:一位中文用户与小冰之间的多段对话。小冰一开始在第 1 轮对话中使用的是普通聊天(General Chat)技能,然后在第 4 轮对话中使用音乐聊天(Music Chat)技能切换到了有关音乐的新话题,之后在第 15 轮使用音乐点播(Song-On-Demand)技能推荐了一首歌,最后在第 18 轮使用订票(Ticket-Booking)技能帮助预订演唱会门票。

这样的分层决策过程可以投射到一个基于马尔可夫决策过程(MDP)[10] 的选项(options)数学框架中,其中选项可将基本动作概括到更高层级的动作。社交聊天机器人会在 MDP 之中导航,通过一系列离散的对话轮次与其环境(人类用户)交互。在每一轮,聊天机器人都会观察当前的对话状态,然后根据一种分层式对话策略来选择一个技能(选项)或一个响应(基本动作)。然后,聊天机器人会收到一个奖励(来自用户响应)并观察到一个新状态,再继续这一循环直到对话终止。这种聊天机器人设计的目标是寻找能最大化期望 CPS(奖励)的最优策略和技能。

这种构建方式引导了小冰的设计和实现。小冰使用了一个对话管理器来跟踪对话状态;在每一个对话轮次,小冰会基于一个分层式对话策略选择响应方式。为了最大化长期用户参与度(以期望 CPS 衡量),我们采用了一种迭代式的试错方法来开发小冰,并且始终会尽力确保探索-利用的平衡。我们使用了已知效果很好的方法来维持小冰的用户群,但我们也必须探索未知(比如新的技能和对话策略),以让现有用户实现更深度的参与或未来吸引新用户。在图 3 中,小冰在第 5 轮尝试了一个新主题(一位名叫「阿信」的流行歌手)并在第 15 轮推荐了一首歌,并由此学习到了该用户的偏好(比如他喜欢的音乐主题和歌手),这些知识能在未来引导实现更深度的参与。此外,我们还采用了一种代际升级方法,让结合了 IQ 和 EQ 的成熟 AI 系统可以通过机器学习算法和大数据的全面应用而逐渐成型。后面的章节将详细介绍这些算法的特性。

3 系统架构

图 4 给出了小冰的整体架构。它包含三层:用户体验层、对话引擎层和数据层。

图 4:小冰的系统架构

4 对话引擎的实现 

本节将描述对话引擎层中的四个主要组件:对话管理器、共情计算、核心聊天、技能。

图 6:基于 RNN 的神经响应生成器。给定用户查询「你这么喜欢阿信啊」,生成的响应是「怎么啦?」

图 8:使用未配对数据集和小冰知识图谱生成响应候选项的示例。我们给出了小冰知识图谱中与主题「北京」相关的部分(上)。对于一次人机对话(左下),每个用户查询都会被重写成一个语境查询,如箭头所示,然后其主题(比如「北京」)就会被识别出来,并从知识图谱中检索出相关主题(「八达岭长城」和「北京小吃」),再使用结合了查询主题与相关主题的查询从未配对数据集(右下)检索出响应候选项。

图 12:用于视觉特征向量提取的深度卷积神经网络示例,来自 [5]

图 15:写诗(Poem Creation)技能框架。该系统的输入是用户提供的图像查询,然后输出一首含义上有关联的现代汉语诗。我们首先根据图像(左)生成一组关键词,然后生成一首包含多行的诗,其中每一行都使用一个关键词作为种子(右)。来自 [31]

图 17:一些最受欢迎的小冰深度参与技能,根据两个维度分成了不同的组别;其中一个维度是从 IQ 到 EQ,另一个维度是从私密的一对一对话到群组讨论。

5 实际应用的小冰

图 19:小冰的主要里程碑和对应的平均 CPS。我们还列出了每一代中对 CPS 和小冰用户数量增长贡献最大的新功能。

表 1:小冰的最长对话记录

6 总结 

心理学研究表明幸福感与有意义的对话往往密切相关。这并不让人惊讶。现在的社交媒体时代,随着越来越多的人通过数字连接到一起,社交聊天机器人也正变成一种重要的对话替代方式。和早期的闲聊式聊天机器人不同,小冰的设计目的是作为能满足用户交流、情感和社会归属感需求的社交聊天机器人,她具备共情能力、个性和技能,集成了 EQ 和 IQ 来针对长期用户参与实施优化,优化指标为期望 CPS。

我们对 2014 年 5 月小冰首次发布以来收集到的大规模在线日志进行了分析,结果表明小冰有能力解读用户的情感需求,并能像一个可靠、有情感共鸣和善解人意的朋友那样参与到人际交流中。小冰能让用户振奋精神、鼓励他们、帮助他们完成任务,并能在对话过程中保持他们的注意。因此,小冰已经成功地与全球数百万用户建立起了长期关系,实现了 23 的平均 CPS,这个成绩显著优于其它聊天机器,甚至也高于人与人之间的对话。我们将继续提升小冰的实用性和共情能力,帮助构建一个能让所有人有更多联系和更快乐的社会。

最后,我们指出一些有待未来研究攻克的难题:

  • 实现统一的建模框架

  • 实现以目标为导向的有基础的对话

  • 实现积极主动的个人助理

  • 实现人类水平的智能

  • 实现符合道德伦理的社交聊天机器人 

理论小冰微软
3
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话,通过图灵测试。 聊天机器人可用于实用的目的,如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统,但大多简单的系统只会撷取输入的关键字,再从数据库中找寻最合适的应答句。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

马尔可夫决策过程技术

马尔可夫决策过程为决策者在随机环境下做出决策提供了数学架构模型,为动态规划与强化学习的最优化问题提供了有效的数学工具,广泛用于机器人学、自动化控制、经济学、以及工业界等领域。当我们提及马尔可夫决策过程时,我们一般特指其在离散时间中的随机控制过程:即对于每个时间节点,当该过程处于某状态(s)时,决策者可采取在该状态下被允许的任意决策(a),此后下一步系统状态将随机产生,同时回馈给决策者相应的期望值,该状态转移具有马尔可夫性质。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

推荐文章
暂无评论
暂无评论~