「自 2014 年小冰在微软亚洲工程院诞生以来,五年之内,小冰已经发展到了第七代,」微软小冰首席科学家宋睿华在活动中说道。「每一次技术的革新改变的都是人与世界沟通的方式。我们认为 AI 能够成为下一个改变人类的突破点,小冰及其背后的情感计算框架将是这种技术的基础。」
两年前,微软小冰推出了历史上第一本由 AI 著作的诗集,今年小冰又开办了 AI 历史上第一个画展。微软所做的一切努力都是希望可以验证 AI 和人类在未来共同生存的方式。
在活动中,微软公布了一组醒目的数字:目前小冰已经进入了 4.5 亿台第三方智能设备。小冰聊天机器人的对话平均轮数已达到 23 轮。这两个数字,都在业内保持领先。
「我们认为,能够自我完备的对话机器人需要具备以下一些能力:学习、自主管理和连接,」小冰首席 NLP 科学家武威向我们介绍了小冰聊天机器人方面的最新进展。
很多人都接触过早期的聊天机器人,它们的回复通常比较死板,缺乏逻辑性。微软小冰也是从传统思路上发展起来的。武威表示,小冰在 2014 年刚刚推出时采用了检索模型,通过重用已有的对话来生成回复。但很快,基于生成模型的方法就被提出,通过神经网络自动生成整句话回复的方法上线。今天,小冰在对话技术中还加入了共感模型,这意味着 AI 已经可以把握对话流程。
「检索模型近年来的发展经历了从单轮到多轮对话,从浅层次到深层次表示和匹配的过程。微软在这个发展过程中至少发表过几十篇论文。」武威介绍道。
其实在机器学习领域,NLP 的范式一直遵循着基本的简单架构——用户的输入和回复的候选在模型中会转化为表征成向量,并进行对比和匹配。
深度学习时代,人们研发出了各种各样的表示方法,其中包括词向量、卷积神经网络、循环神经网络基于句子的表示。到现在,基于 Transformer 的表征方法流行起来,归根结底,其本质都是回复候选。
在微软一篇登上 AAAI2018 上的工作(Knowledge Enhanced Hybrid Neural Network for Text Matching)中,研究人员将外部知识引入到匹配中来,在知识层面、短语层面上进行表示,又在多种粒度上对比候选的匹配。「我们发现这个模型(KEHNN)的效果还是不错的。它现在不是最强的了,但成为了各个新研究上的基线模型。」武威说道。
今年,微软在 WSDM2019 上提出了 Multi-Representation Fusion Network(MRFN),加入了通过融合多义词表示的机制。研究人员发现,在模型处理过程中,融合发生的位置越晚效果越好。
随后在 ACL 2019 的一个研究中,微软提出了深度匹配网,其可以在一次交互后,让剩余信息再次进行交互,这种技术类似于图像领域中的 ResNet,目前在标准数据集上保持了业内最佳的效果。
在生成模型上,微软小冰也走了业界最远的路。
从单轮到多轮生成模型。今天的对话机器人带来的信息量越来越大,我们还可以自然地引入外部知识,兼容各种模态生成内容丰富的回复。基于生成模型的方法虽然推出时间不长,但是发展速度非常快。
微软在 2017 年的 AAAI 大会上首次把话题信息引入到回复中,以此让算法生成的回复更有内容。通过外部的无监督训练话题模型产生话题语料,再通过话题注意力机制解码语料,在通过概率加入到生成的回复语句当中。武威表示,微软的这一工作现在已获得了 190 次引用。
EMNLP 2019 上,微软尝试了通过无监督的方式对对话上下文进行补全,从而生成回复,获得了很好的效果(Unsupervised Context Re writing for Open Domain Conversation)。
此外,在今年的 ACL 上,微软还进行了让机器人互相学习实现共同进步的尝试(Learning a Matching Model with Co-Teaching for Multi turn Response Selection in Retrieval based Dialogue Systems.)。「我们让两个检索模型互为师生(teacher & student),就像两个学生在学习过程中互相启发、互相讨论,实现了性能的提高。」武威介绍道。
在市场上,小冰是我们能够接触到「最聪明」的聊天机器人,第六代小冰发布的共感模型,可以通过对话策略对整个对话模型进行管控。在这其中是两个模型的结合体:回复生成模型与策略决定模型。
「两个模型结合在一起,我们可以把基于上下文直接产生回复的过程,改进为上下文加决策的更复杂过程——让 AI 学会决定说什么。」武威说道。策略展示了「小冰」的意图,可以是话题、情感,也可以是它们的组合,这种方法产生了多样复杂的对话流程。并且可以由 AI 来管理对话的流程。
人工智能模型究竟能不能生成准确的自然语言回复,达成既定的「策略」呢?对此,研究人员常用的办法有标注数据、有监督最大似然估计等方法,我们也可以通过增强学习的方法来学习策略组合,让计算机掌握一些引导聊天的技巧。
微软小冰共感模型的一个应用是通过问问题的方式,来快速学习知识来进行商品推荐。这个应用在日本、美国都进行了尝试,得到了非常好的效果,推荐的转化率可以高达 68%。
在今年的 ACL 上,小冰团队提出了 Meta-words,收获了很好的效果(Neural Response Generation with Meta
Word)。这种方法可以用于打造各种不同性格的对话机器人。在这个模型的研究中,研究人员还给出了目标追踪记忆网。
在文本处理技术的研究之后,微软小冰首席语音科学家栾剑向我们介绍了小冰在语音方面的技术演进。
「小冰从 2016 年开始开始学习唱歌,当时这个方向还比较冷门,」栾剑介绍道。「其实早在 2015 年,小冰就推出了语音聊天的功能,一经推出得到了广泛好评。在短短一年的时间里,我们发现在语音合成领域里很多大的问题已经解决了,但还有一些细节上的问题需要技术的沉淀。」
栾剑认为,选择让小冰唱歌的原因在于更高的挑战性:歌声合成的门槛比说话要高,情感表达上也更加激烈。此外,歌曲也是最重要的娱乐形式之一。
机器合成音乐通常有两种方向:传统合成方式——通过输入单元库,从人类样本的发音中进行挑选,随后通过信号处理修音,最终匹配想要达到效果,串接起来拼接形成音频。这种方法的音质可以保留采集时的效果,但生成的歌曲比较生硬,字与字之间不够流畅。
另一种则是参数合成的方法——通过隐马尔可夫模型等方法,从数据中提取参数、能量谱建立模型,在需要合成歌曲的时候预测声学参数,解码重构出歌曲。这种方法的优点在于合成的粒度非常小,变化丰富,可以生成现实世界从未出现过的声音,缺点则是音质损失较大。
微软小冰选择的道路显然是改进后者:
在歌唱模型的训练中,数据永远是个大问题——训练模型需要纯人声的音频,但我们能够拿到的数据大多数是带有伴奏的歌曲。微软因此在这些年里也做了很多从混合伴奏音频中人声提取的工作。
今天,与小冰相关的 AI 顶会论文已有 48 篇,申请专利的数量则达到了 72 个。「我们的全双工语音交互技术,要比友商早 22 个月落地。」宋睿华介绍道。
明年的 AI 顶会上,还很可能会出现有关小冰语音合成的论文。