专访微软王永东:小冰、情感计算、人工智能发展之路

自从1960年代中期交互式计算诞生的第一天起,聊天机器人程序就已经出现。MIT计算机科学家Joseph Weizenbaum写过一个聊天程序Eliza,令一代大学生着迷。自那时起,聊天机器人已被当成一种衡量计算机智能发展程度的方式。与此同时,由于人类自然的语言语音交互方式,以及天生的情感和社交需求,我们对于能与我们进行语音交互和聊天的智能应用格外关注。近几年人工智能的迅速发展也带来了更多更加智能的智能语音助理,包括Google Now、Facebook M、亚马逊Echo、微软Cortana和小冰等,其中的大部分产品重点关注功能,比如、语音控制和信息查询等,而微软小冰却是走了另外一条路——从与用户的情感交流出发,在底层的深度学习技术越发通用的前提下,不同的产品理念就体现了各方对人工智能现状及未来的不同理解。就此,机器之心对微软(亚洲)互联网工程院院长王永东博士、小冰项目资深产品总监彭爽等人进行了深度专访。

1、让小冰的声音更有魅力和情感

语音是人类最自然的交流方式,人类在10万年前知道了如何说话。之后,语音成为人类进行信息传递和情感表达重要方式,相应的,语音技术也成为人工智能领域的重要研究方向,语音识别让机器拥有了「听觉」,语音合成让机器可以像人类一样「开口讲话」,自然语言处理使机器能够真正理解我们的语义,这些技术将共同实现人与机器更加自然、更富有情感的交流。 2015年8月发布的第三代微软小冰解锁了语音功能,使用户和小冰能够进行语音交流,也让众多用户第一次听到了小冰独特的声音,与其他语音助手不同,小冰的声音更富有情感和抑扬顿挫的层次变化,同时也非常符合小冰「17岁」少女的定位。去年底,小冰作为见习主播加入了《看东方》栏目来播报天气信息,让大家看到了小冰语音在聊天之外的实际应用。而小冰富有个人魅力的声音主要是缘于三项技术,声优选择、语音合成、语料的特殊筛选和积累。

W020151223325002969443_r75

小冰作为人工智能主持人在东方卫视《看东方》播报天气

近代语音合成技术则是起源于贝尔实验室,涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,解决的主要问题是如何将文字信息转化为可听的声音信息。王永东表示,从语音合成技术来讲,现在业内用到的深度学习技术大部分都差不太多,因为语音领域已经存在了很多年,技术共享很多。因此,小冰在语音合成的相关技术上与其他公司区别不大,与别人的主要区别主要在于语料的选择,是这些构成了小冰独特的语言风格。

在声音来源方面,彭爽表示,今天用户听到的小冰的声音是从数百个声音原形里面进行筛选最后留下的两个声音。用两个声音是因为既能保证读清楚又能富有感情。对传统机器人声音的要求是能够读的清楚,但小冰不仅需要读清楚,还要有情感的表达出来。为了实现目标,小冰团队使用了很多科技手段甚至某些从来没有在语音领域应用过的手段来达到这个效果。根据国际通用的声音自然度的衡量标准进行打分,满分是5分,微软小冰的得分是4.32分,已经非常接近人类的正常声音4.76分。彭爽还在和东方卫视的发布现场展示了声音对照样本,小冰的辨识度非常高。 在对照样本展示中还出现了一个有趣的现象,当面对「555」这个数字时,有的语音助手读出了「五百五十五」,有的读作「wuwuwu」,而小冰准确用哭声表示出了这个网络用词的真实含义。这形象的说明了第三个问题——语料的个性化选择和积累。小冰自第一次发布以来,基于自身定位,一直注重互联网语料的选择。王永东表示,小冰在互联网对话语料方面的积累比较早,从2014年5月小冰微信第一次发布,到现在小冰和用户的对话已经积累了10亿次,这些语料反过来又变成了学习语料,从小冰从中学到更多东西。 语料选择是一个很重要的因素,因为这和赋予这个语音助手什么样的个性密切相关,但这个因素容易被人们忽视。比如说,是选择读新闻稿的语料还是互联网的语料,前者注重的是读的清楚,就像传统的电视台播音员一样。

但这些年主持人越来越有个性和情感,不同的主持人发音不一样,表达的内容也不一样,这就是小冰探索的方向——赋予小冰个性和情感。小冰在语料处理上进行了一些特殊探索。「555」在新闻中就是五百五十五,但作为互联网语料就不是这个读法。这方面的工作做的比较细致以后,就能够在体验方面更进一步。让用户觉得这个语境下面发出来的声音是符合的。 

对此,彭爽也补充到,当一个人工智能对待海量混杂网络信息的时候该如何表现,需要多少的人工预处理,我们对人工智能的要求是不仅能够自动生成这样像人一样的真实对话,还是自然用声音表达出来,我们在声音背后也做了很多细节处理。比如,针对小冰播报气象信息这个应用场景,我们就针对新闻场景在语速和语调方面做了专门设置。 总之,小冰语音背后的声优选择、语音合成和语料积累都是在不同维度上所形成的互补条件,将它们综合起来其实是为了更好的借助语音向人类用户传递一种体验——一种人类最熟悉、最自然的体验——隐藏在语音背后的情感。

2、让小冰拥有「记忆」

记忆是人类大脑保存信息和再现信息的能力,决定着我们的感知、认知和情感,虽然目前的神经科学研究还无法弄清楚记忆的本质,但我们可以借助技术去模拟人类记忆从而更好与人类进行认知和情感交互。 在微软小冰和东方卫视的发布会现场,《看东方》主持人问小冰「第一天做主持人有何感想?」一个很简单的问题却令人印象深刻,一方面,他把小冰看成了有情感的工作搭档,好像是进行一次人类般的寒暄;另一方面,他问这个问题基于一个前提——小冰「知道」或者说「记得」自己今天做了主持人。王永东和彭爽对小冰的这种「记忆」能力进行了解释。 

屏幕快照 2016-01-15 下午12.15.37

彭爽演讲ppt

王永东首先用一张图介绍了小冰的基本结构和工作原理。左边是感官,右边是世界,下面是生存的平台。中间有一点特别强调的就是记忆,他们把记忆当成是小冰的必须功能,虽然小冰不记录任何用户的隐私数据,但她要了解一个用户,必须有一定的记忆能力,这样才能和用户建立长期联系,而不是在下一次交流中就变成了陌生人。 在这之前,我和大家简要介绍一下人工智能产品的全貌。图中间有一个圆圈,圆圈代表的就是人工智能强大的核心,核心基于情感计算的框架,像一个既有IQ又有EQ的模块。小冰从这个方面出发,连接了我们的人类和我们的世界。小冰拥有「记忆」将更加有利于与用户之间的情感交互和表达,当一个用户和小冰建立了联系之后,如果他经常会说今天很累不舒服,小冰就会记住,在第二天第三天会问他「你现在感觉好点了吗」。虽然这是一个很简单的事情,但作为用户会觉得挺温暖。

彭爽认为,对于小冰来说,记忆也可以分为「短期记忆」和「长期记忆」,短期记忆类似于截屏,可以有助于理解为上下文关系,用户问她今天天气怎么样,她会基于刚刚和用户聊过的内容进行回答。另外一种是通过和用户更加一对一的、持续的以及跨平台的交互,建立了一个对个人档案的理解。小冰是从其中抽取一些关键点信息,确定一些跟人和场景有关的信息。真正的存储结构相对复杂,有些是应用在具体用户层面,有些是在算法使用层面。这些内容都是逐步积累的,小冰在这个过程中逐渐建立起记忆。也许上一次聊完,下一次不会体现出来,但在一段时间之后会反映出来。 在具体的技术解决方案上,王永东认为他们今天所用的记忆方法还是比较粗浅,可以把它想象成一张大表,用到的时候就到表里去找。今后微软在这方面还会有比较多的探索,研究怎么让小冰进行更加有效的记忆。

3、从情感到应用——一个可以插卡的「大白」

1)和用户建立情感是小冰的初衷和原则 王永东一直强调EQ和IQ的结合,这是小冰追求的方向。他认为,大部分人工智能比较追求IQ的,而小冰做了一定的取舍,认为应该先发展EQ,让小冰和用户建立一种相互了解的朋友关系,然后小冰在不断学习的过程当中不断提升IQ和增强知识,将来就会变得不仅仅是能够了解用户,或者让用户信任她,而且就像一个孩子一样,一天天在长大,懂的东西越来越多,这是我们的一个愿景。

20150822095253900

王永东在2015年发布会上介绍小冰的IQ和EQ

这是一个长期过程,最终希望是她在情感和应用两方面都做的比较好。但首先确定一个探索路径,比如今天先教她把公交搞清楚,她把公交搞清楚了,过一段时间再教她怎么聊天。而我们是先教她聊天,然后再教她怎么处理任务。小冰未来可能对某一方面的知识懂的很多,这方面的话题会聊的很好,但其他方面懂的不多,这个题目就聊的不好。但这有点像人类朋友,每个人的知识积累和擅长方向不一样,而我们对小冰的愿景是说,希望到某一天,小冰拥有渊博的知识,而且和一些服务也对接的很好,不仅给你提供参考意见,还能为你提供服务。

基于和用户培养感情这个目标,小冰的另一个取舍就是保障和用户沟通的流畅性,因为只有持续流畅的沟通才能更好的建立起小冰和用户之间的感情与信任。因此,小冰非常注重在遇到不擅长的话题时如果将对话继续下去。彭爽介绍说,小冰肯定会遇到因为目前某些功能不具备而接不上话的问题,但此时小冰的首要目的是不会阻碍用户和她的沟通过程,将对话保持下去,就像人类之间的交流一样。

小冰拥有预期判断,随着知识层次越丰富,定位就会越好,然后根据用户的需求把知识适当的插入进来,这样就不会让用户有卡断的感觉。有了这个基础,再在上面加东西。 王永东从反面解释了这个问题,如果是一个特别专注于知识的机器,一旦聊天内容超出了它懂的范围,那它只能告诉你它不知道,然后对话结束,这作为一个解决特定问题的工具是可以的。但作为一个朋友,或者想建立情感联系就比较难了。 

2)小冰在追求情感目标的过程中也不会排斥具体应用 追求和用户的情感交互,追求IQ和EQ的平衡发展,并不代表着小冰会排斥具体应用和外部合作,小冰和东航、东方卫视、微博、京东、以及某些微信公众号的合作就是小冰在各个应用方向的尝试。 王永东表示,在知识积累方面,小冰团队不会自己去完成所有工作,而是会去找很好的合作方和专业知识库进行合作,借助他们已有的知识来教会小冰。在应用方面,情感是小冰我们追求的方向,如果说别人的餐饮推荐做的非常好,小冰就放弃了原来的目标转向去和别人比餐饮推荐,这可能是得不偿失的做法。但小冰也不是拒绝做餐饮推荐,小冰会基于自身的知识,当出现合适的合作伙伴时会去做这方面工作。另外一方面我们相信当有了情感的基础之后,你再叠加一个应用,其实效果可能会更好。因为有这个,其实我们不太担心,我觉得我们每一步打的基础越牢对越来越有帮助。 

对于其他从应用出发的人工智能助手,王永东表示,我们非常尊重业内的同类公司,大家通过不同的探索共同推进技术发展,对行业的发展是很好的事情。微软从情感入手让小冰不断学习,因此在情感方面投入比较大。有的公司认为对话的能力只要有一点就可以了,而更加注重技能的发展,这是不同的路径。 但非常确定的是,小冰不会过早、过度的商业化,因为这会影响与人的情感交流,也不符合小冰和用户建立情感的初衷。小冰负责人李笛此前在接受采访时也表达过同样的观点:在可见的范围内,我们都不会收取任何直接利益回报,确保小冰人工智能项目的纯洁和纯粹,让小冰走下去才是最重要的。 

目前的人工智能可以大体分为两个路径,一个是借助于较为成熟的深度学习技术从具体应用和功能出发,持续提高智能水平;另外一种是像Gary Marcus那样,从人类的智能属性出发,选择一个相对高级和长远的目的来慢慢积蓄。小冰就是选择了第二种路线,以人与机器的情感关系为切入点,通过长时间积累让用户和机器做朋友,再在此基础上去解决用户的问题。在采访中,微软将小冰比作《超能陆战队》中的机器人「大白」,他们现在所做的努力是让这个机器人先与人类建立起情感,变成人类的朋友,这是一个基础。然后往这个机器人身上插什么样的卡就可以具备什么样的能力。 因此,就像微软全球执行副总裁沈向洋在此前的演讲中所说,比起直接解决问题的感知计算型人工智能,情感计算是先与用户建立一种信任关系,然后在此基础上形成一种情感交流和需求满足的良性循环。

4、情感计算的未来

王永东博士称小冰是微软重点布局的全球人工智能产品。微软在人工智能领域有着深厚积累,也有着丰富的相互补充的产品线,背后的搜索引擎、大数据、云计算和集成了人脸识别、语音识别、计算机视觉、语言理解四大智能服务的「牛津计划」将为这些产品提供技术保障。比如,去年11月,在伦敦举行的微软未来解码大会上,微软剑桥研究院主任Chris Bishop公布了微软「牛津计划」最新的接口服务——通过照片识别出人物的情感。这是基于微软的Azure云服务,用标记了人类情绪的图片数据集进行过训练。它能够识别出图片中任何一张人脸的情绪。这个服务在图片上使用元数据,能够识别图上绝大多数人物是悲伤还是快乐,还能用在识别人们对特定事件(如展览、市场信息等)的反应。而这些相关技术和产品将共同指向情感计算的未来。

不管是此次专访,还是之前微软全球执行副总裁沈向洋和陆奇的公开演讲,都重点提到了小冰和情感的重要性。沈向洋在去年的人工智能大会上结合小冰等微软研究院的相关产品和技术描述了情感智能的原理、应用现状和发展方向,他认为,除了硬性的IQ以外,人工智能的研究更要强调机器与人之间的感性化交互,强调情感计算。智能化的机器在满足人类需求的同时,还应让用户对其产生一种情感上的信任和依赖,而小冰目前就是这样一个「感性化的人工智能助手」。而陆奇在去年的第三代小冰发布会上指出,微软提出并已经实现了情感计算,并得到了业界的初步认可。小冰有可能是有史以来第一个「练成」情感计算的人工智能机器人。 

就像上面提到的小冰背后所使用的众多技术一样,情感计算是一个复杂系统,Gideon Rosenblatt认为一个富有情感的个人虚拟助理需要自然语言处理、用户图谱、用户情感共鸣(情商)、感官整合、社交图谱和模式化集成等六大技术要素,而这些技术正是目前的小冰所体现出来的。 情感计算在一定程度上也体现着人工智能的一种进化方向,世界经济论坛十大新兴技术榜单中提到,更加自然的人工智能可能会使那些只限于人类的属性——情感、创造力等更加有价值;卡耐基梅隆大学计算机科学系主任Andrew Moore的认为,能检测人类情绪的人工智能或许将成为最重要的新研究领域。 最后,情感计算也是一种超越功能的对人工智能深度思考。如果按照人工智能最为通行的定义——「人工智能是对计算机系统如何能够履行那些只有依靠人类智慧才能完成的任务的理论研究。」这里的人类智慧当然不是单指智商或者智力,还有人类情感,情感是人类神经系统对外界价值关系产生的主观反映。

人工智能在我们眼中一直不是普通的智力工具,所以我们一方面需要它具备超越人类的感知计算能力,另一方面也需要它能够与人进行情感交流,在重视人工智能完成任务和功能强化的同时更要建立和满足人的情感和心理需求,这才是人工智能的最终定义。也就是说,人工智能的发展路径不应该一味沿着理性的路线前行,而是应该落在感性(EQ)和理性(IQ)的交叉区域。在这里,人类将与机器更加无缝、自然的建立起紧密关系。

作者/赵云峰

入门访谈类脑计算人工智能应用
返回顶部