微软披露小冰背后的基础框架与核心技术

机器之心 3 月 28 日消息,微软(亚洲)互联网工程院在北京微软中国研发集团总部举办了小冰技术交流会,机器之心作为受邀科技媒体参加。会中,微软(亚洲)互联网工程院副院长、微软小冰项目全球负责人李笛讲述了对话式人工智能基础框架理念之争正在发生的变化;微软小冰全球研发负责人、首席架构师周力则对全双工语音交互感官(Full-duplex Voice Sense)的部分技术特征进行了披露。会中李笛坦然表示,国内对人工智能整体的发展更像在堆积木,对底层框架设计没有特别多的探索,希望这次「闭门会」能为业界人工智能语音技术的发展贡献新思路和新方向。

上周,微软(亚洲)互联网工程院宣布率先推出新一代全双工语音交互技术,并已实现全球产品线落地。该技术与既有的单或多轮连续语音识别不同,可实时预测人类即将说出的内容,实时生成回应并控制对话节奏,从而使长程语音交互成为可能。此外,搭载该技术的智能硬件设备仅需一次唤醒即可轻松实现连续对话,而无需用户每轮交互都说出唤醒词,把语音交互的自然度推进到一个新层次。比如微软联合小米推出全球首款搭载全双工语音交互技术的 Yeelight 智能语音助手,也是内置微软小冰和小爱同学的首个「双 AI」智能设备。

那么,微软小冰是如何实现上述突破的呢?

微软(亚洲)互联网工程院副院长、微软小冰项目全球负责人李笛
李笛表示,这首先是由对话式人工智能的基础框架所决定的。基础框架的理念可分为两种:面向单个任务(Turn-oriented)和面向对话全程(Session-oriented)。这种划分很接近于编程中的面向对象的编程和面向过程的编程。现有的大多数对话式 AI 都是 Turn-oriented 框架,包括微软小娜在内;目前只有小冰是基于 Session-oriented 框架。


在 Turn-oriented 框架中,对话就像是十字路口,「民警」站在中间指挥。每当用户输入一个命令,「民警」则将其引导至相应模块,任务完成,再返回十字路口。通过这种一问一答的方式,Turn-oriented 框架确实可以很好地完成大量任务,同时也深受自身局限,永远无法离开十字路口。Session-oriented 框架则相对复杂一些,其中对话像河流一样,从一个 turn 到下一个 turn,自然地向前流转;其中 turn 可能是与任务相关,可能是从中引发出新任务和新知识的「无用的」无关对话,也可能是某个单一任务,比如突然要求关灯(但是这要 Turn-oriented 框架完成)。



全双工语音交互技术补全了 Session-oriented 框架上的最后一环,它是情商(EQ)和智商(IQ)的整合,也可以说是小冰和小娜的整合。这种整合不是随意的拼凑,而是以情商为基础,像土壤一样,任务、知识等智商生长于上,从而实现一种有机的整合。

相比于 Turn-oriented 框架的支离破碎(像西方思路),注重单一任务的完成质量,Session-oriented 框架则更像东方的思路,把对话看作一个整体,并对其进行统摄、保持和引导,注重整体任务的完成质量。Session-oriented 框架规避掉了由 Turn-oriented 框架内在基础决定的发展上限,在未来有着巨大的技术潜力和场景应用。


微软小冰全球研发负责人、首席架构师周力
周力表示,微软小冰自然交互的魅力之处在于一旦习惯了更自然的,就很难退出当初了。为什么会有这种用户体验,他从技术的角度给出了四个解释,分别对应于全双工语音技术展开之后的四层结构:

1.边听边想(语音)。全双工语音交互技术包括预测模型,可以不再等到一句话说完,再进行语音识别,然后再处理如何回复。每听到一个字,都会提前预测用户的完整意思。与此同时,提前开始「思考」回应,已实现更快的响应速度和改口能力;同时还可以实现动态回应,而不再是用户输入一条,人工智能回应一条的回合制问答。根据预估的思考时间、复杂任务的完成时间,有选择地将人工智能的回答拆解为多段,减少用户感知的等待时间。

2.节奏控制器(节奏)。在全双工语音技术中,对话的节奏和时机也不容忽视,与内容同等重要,这点在业界一直被忽视。对话中,小冰不仅要与人类协调好节奏(跳出纠缠?、被动应答?、打断?),还要协调好自己的节奏(跳过?、替代?、等待?),以及其他语音助手的节奏,比如如何碾压半双工语音助手。必要的时候,小冰还要通过抛出新话题、强制维持原话题等方法打破对话中的沉默。此外,还存在非对称模式的情况,比如当人倾诉,小冰则要倾听;当人倾听,小冰则要倾诉。

3.声音场景的理解(场景)。传统意义上的语音识别是指通过一段语言识别其中对应的文字,但全双工场景实现的理解远不止于此,它还包括分类器、环境处理和对象判断等方面。比如通过声音识别说话者的身份(男、女、儿童)和情绪(喜、怒、哀、乐),以及听音识歌。再比如通过识别语音的声纹来判断对象,他/她是小冰对应的主要用户抑或是新用户;判断对象是在与小冰聊天,抑或只是多人聊天、电视背景音。

4.自然语言理解与生成模型(文本)。这使得 IoT 上的小冰与微信等 IM 上的小冰区分开来,原因在于前者具备了自创能力,即每一句话都来自于小冰自己,后者则仍借助于检索模型等技术。据周力表示,小冰生成模型的底层技术是深度学习中的 LSTM+Attention Model。这有助于小冰实现更好的容错性,实现与语音合成的更好串行,以及实现主动结束 session 的判断。

可见,在半双工技术为主的当下,微软小冰的全双工语音交互技术已初露锋芒。李笛表示,小冰不是智能设备上的一个功能,相反,智能设备只是小冰的载体。小冰不见得一开始便占尽优势,不在乎一城一池的得失,而是后来者居上,因为微软相信 Session-oriented 框架及全双工才是语音交互的未来。

产业全双工语音交互感官应用语音交互微软小冰
11
还需改进...