专访大象声科汪德亮:利用深度学习解决「鸡尾酒会问题 」

近些年,随着深度学习的兴起,人工智能已经学会了下围棋、玩视频游戏、识别人脸、做翻译、驾驶汽车……甚至在德州扑克这种非完美博弈中也开始崭露头角。但事实上,变化不止于此,在语音增强方面,深度学习技术正推动「鸡尾酒会问题」的解决。

俄亥俄州立大学终身教授汪德亮(DeLiang Wang)是全球第一个将深度学习应用于语音增强的科学家。

汪德亮教授是俄亥俄州立大学感知与神经动力学实验室的主任、校杰出学者、IEEE Fellow、顶级期刊 Neural Networks 主编,主要致力于机器感知和信号处理领域的研究,在听视觉处理的神经计算研究方面开展了多项研究工作,并取得了很多重大成果。他建立了振荡相关理论,在听视觉分析中得到了广泛应用,还开创性地提出了计算听觉场景分析理论与算法,为解决听觉领域中著名的「鸡尾酒会问题」提供了全新的研究思路和方向。前段时间,他在 IEEE Spectrum 上发文详细介绍了其团队在语音增强深度学习技术上的研究进展。

汪德亮以联合创始人兼首席科学家身份加入创业公司「大象声科」,该公司于最近在深圳成立,专注于深度学习在语音增强领域的应用开发,通过声音信号处理技术为企业提供全面的远场语音增强方案。目前大象声科涉及的领域包括会议转录、通讯、机器人、智能家居、虚拟现实、增强现实和混合现实等。

机器之心近日对汪德亮进行了一次专访,以下是专访内容的整理:

机器之心:您是计算听觉场景分析(CASA/computational auditory scene analysis)的主要贡献者之一,您能为我们简单介绍一下 CASA 相关的技术以及您的研究团队的工作吗?

汪德亮:CASA 主要关注的领域是声源分离。这里的声源不单是指人的声音,也可能是其它各种声音(比如街上汽车和救护车的声音)——这些都是声源。声源分离的目标就是将这些声音分离开。针对这一问题的早期解决方式是通过统计的方法把声音里面的统计特性提取出来; 计算听觉场景分析则在很大程度上是对人的听觉特性的模拟。

尽管现在人工智能已经很强大了,但在很多方面人的智能还是比机器智能强很多,尤其是在鲁棒性方面。也就是说,对于有一个同样答案的数据,如果其中有一些变化的话,对机器来说会是很大的困难,但对人来说却没有什么影响。CASA 这个领域很大程度上基于听觉场景分析(ASA/auditory scene analysis)。ASA 是心理听觉(psychoacoustics)的一个研究领域,这是心理学和听觉的交叉领域。其中最有名的问题叫做「鸡尾酒会问题(cocktail party problem)」;而人能够解决鸡尾酒会问题。

鸡尾酒会问题是什么呢?这首先是由一位著名心理学家 Colin Cherry 提出的,他当时研究的是注意机制(attention mechanism),你能在很多的相关书籍中看到他的名字,在历史上的地位非常显赫。当时他在他那本 1957 的书《On Human Communication》里面说道:到目前为止,还没有哪个机器算法能够解决鸡尾酒会问题。这之后鸡尾酒会问题就为人所知了。要解决鸡尾酒会问题,就需要能够达到人类的听觉性能水平。后来麦吉尔大学的教授 Albert Bregman 在 90 年代写了一本巨著——《听觉场景分析(Auditory Scene Analysis)》,这本书对计算领域的影响还是很大的。Bregman 本身是一位心理学家,不管计算问题。他思考的是:人是通过怎样一种心理学机制和生物学机制来达到能够解决鸡尾酒会问题的性能的(当然到目前我们也还并不完全了解人是怎么做到的)。但是他在他的那本书里面提出了一个理论——听觉场景分析理论。后来他这个理论被引入了计算领域,人们就思考怎么可以把人解决鸡尾酒会问题的机制变成算法用到机器上,让机器能够达到解决鸡尾酒会问题的性能,从而回答 Cherry 在很多年前最开始提出的那个挑战。

CASA 这个领域又是怎么由来的呢?Bregman 的那本书是 1990 年发表的,而 CASA 领域最早的工作是 1985 年斯坦福大学的一篇博士论文;这项研究启动的时间比那本书还早 (但也受到了 Bregman 影响)。计算听觉场景分析这个领域就从那个时候开始形成。

一个街道上的听觉场景,图片来自 IEEE Spectrum

对于我们这个团队呢——我是从神经网络这个领域切进去的,而他们是从电子电气和信号处理那些领域切进去的——我们的进入方向不一样。我进入的时间也比较早——从 90 年代初就进入了。我在早期的时候研究的是神经动力学,比如大脑里的振荡器。后来我转向了这个方向,在这个过程中 Bregman 的那本书对我的影响非常大。但那时候做这个领域研究的人还不多,我可以说是 CASA 这个领域的主要代表人物之一。后来 CASA 的影响力开始慢慢变大。

我们也第一次把 CASA 和后来的深度学习结合了起来,也就是说把鸡尾酒会问题变成了一个机器学习问题。早期的时候,我是通过神经动力学来做声源分离的。但现在我们把鸡尾酒会问题变成了一个分类问题,源于我们称之为「理想二值模(Ideal Binary Mask)」。这是我们实验室提出的一个很重要的概念。我们就想:什么叫解决了鸡尾酒会问题?也就是说,如果把一个听觉信号在时间域和频率域两个维度(时频二维)进行表示(类似于视觉信号的 x 轴和 y 轴两个维度),你就可以把时频这二维表示成一个二维矩阵,这个矩阵中的每一个元素称为一个「时频元(time-frequency unit)」。我们开始研究的就是怎么量化这个时频元,后来我们发现这个量化只要二值就可以了——要么是 0 要么就是 1。这跟传统的声源处理方法是完全不一样的。传统的声源处理要把信号分得很细。一个信号里面可能有很多的组成部分——一个部分属于这个声源,另一个部分属于另一个声源。我们的方法就不需要分那么细,就只需要分一次——要么属于目标声源,要么就是背景噪声。这就是「二值」的意思。这样我们就把 CASA 问题变成了一个监督学习(supervised learning)问题;相对地,早期方法则是无监督的(unsupervised)——也就是说把一个信号的权值算一算,而不需要教它。我们从理想二值模的角度考虑,就把它变成了一个分类问题。

分类是监督学习领域里面一个最基本的任务。我讲课的时候常常这样比喻:对于一个水果——它是橘子还是苹果?二值就是这个意思——要么是橘子,要么就是苹果。如果最开始你让一个不认识它们的小孩去猜,猜错了之后他妈妈会告诉他错了,最多几次之后这个小孩就能自然地知道该怎么区分了。机器学习也就是这样,我在讲课的时候常常将它比作是「Apple & Orange Problem」。当你把它变成了一个二值模问题之后,这就很自然地变成了一个「Apple & Orange Problem」,也就成了一个分类问题了,之后该怎么做就变得明朗了。

确定了问题之后,接下来就是确定用什么学习模型去做,这就是具体的技术问题了。

为什么我们实验室在声源分离这方面一直处于领先呢?因为是我们最早提出把声源问题变成一个监督学习问题的。最早用过多层感知器(Multi-layer perceptron)、混合高斯模型(Gaussian Mixture Model)等等。因为这是一个全新的思路——原来是一个信号处理问题,现在变成了一个学习问题——而我们一直是领先在做,所以我们也一直处于领先的状态。深度学习出来之后,我们也是最早把深度学习应用到这一领域的。当我们把它变成了一个深度学习问题之后,剩下的就是具体的技术问题了。将来(也许五年之后),也许深度神经网络又比不上一种新出现的学习模型了。我们会照样进行研究,因为我们已经有了概念上的突破。学习模型之间性能当然是有差别的,所以采用更好的模型也是理所当然。而将这个问题变成一个学习问题才是更大的概念上的突破。

所以简单总结一下,CASA 就是基于人的听觉原理来做声源分离,我们实验室的最大贡献是第一次将这个问题变成了一个监督学习问题。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论深度学习汪德亮语音识别大象声科观点产业
1
暂无评论
暂无评论~