GMIS 2017大会汪德亮演讲:基于深度学习的语音降噪技术

全球机器智能峰会( GMIS 2017 ),是全球人工智能产业信息服务平台机器之心举办的首届大会,邀请来自美国、欧洲、加拿大及国内的众多顶级专家参会演讲。本次大会共计 47 位嘉宾、5 个Session、32 场演讲、4 场圆桌论坛、1 场人机大战,兼顾学界与产业、科技巨头与创业公司,以专业化、全球化的视角为人工智能从业者和爱好者奉上一场机器智能盛宴。


view.jpg


5 月 27 日,由机器之心主办、为期两天的全球机器智能峰会(GMIS 2017)在北京 898 创新空间顺利开幕。中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃为本次大会做了开幕式致辞,他表示:「如今人工智能非常热,有人说再过几年人类甚至不如鞋底聪明,50% 甚至 70%工作被人工智能取代。」王飞跃对此表示很震惊,但并不认同,他又说:「情况是,再过几年,人类 90% 的工作由人工智能提供,就像今天我们大部分工作是由机器提供的一样。我们的工作就是尽快让我们的鞋底也像人一样聪明,而不是鞋底比我们聪明,并希望机器之心主办的这次全球机器智能峰会让我们知道人工智能会提供一个更美好的未来。」。大会第一天重要嘉宾「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与峰会,并在主题演讲、圆桌论坛等互动形式下,从科学家、企业家、技术专家的视角,解读人工智能的未来发展。


27-87.jpg


下午,俄亥俄州立大学终身教授汪德亮(DeLiang Wang)发表了主题为《基于深度学习的语音降噪技术》的演讲,探讨分享了鸡尾酒会问题研究的当前进展、解决方案及其泛化等相关问题。


作为全球第一个将深度学习应用于语音增强的科学家,汪德亮教授是俄亥俄州立大学感知与神经动力学实验室的主任、校杰出学者、IEEE Fellow、顶级期刊 Neural Networks 主编,主要致力于机器感知和信号处理领域的研究,在听视觉处理的神经计算研究方面开展了多项研究工作,并取得了很多重大成果。他建立了振荡相关理论,在听视觉分析中得到了广泛应用,还开创性地提出了计算听觉场景分析理论与算法,为解决听觉领域中著名的「鸡尾酒会问题」提供了全新的研究思路和方向。


汪德亮以联合创始人兼首席科学家身份加入创业公司「大象声科」,该公司在深圳成立,专注于深度学习在语音增强领域的应用开发,通过声音信号处理技术为企业提供全面的远场语音增强方案。目前大象声科涉及的领域包括会议转录、通讯、机器人、智能家居、虚拟现实、增强现实和混合现实等。


以下为汪德亮教授本次演讲的主要内容:

2.png

大家好,我是汪德亮,首先我向大家介绍一下什么是鸡尾酒会问题。在这里我主要会讲理想二值模和人类语音的清晰度问题,以及基于 DNN 分类的语音分离技术,尤其针对听力受损者,这样可以迁移到我们对于噪音分离的这个研究上。


一、什么是鸡尾酒会问题?

4.png

鸡尾酒会问题是什么呢?这首先是由一位著名心理学家 Colin Cherry 提出的,他当时研究的是注意机制(attention mechanism),你能在很多的相关书籍中看到他的名字,在历史上的地位非常显赫。当时他在他那本 1957 的书《On Human Communication》里面说道:到目前为止,还没有哪个机器算法能够解决鸡尾酒会问题。这之后鸡尾酒会问题就为人所知了。要解决鸡尾酒会问题,就需要能够达到人类的听觉性能水平。对于鸡尾酒会般的情况...当所有的声音同样大(甚至干扰谈话者多达6个),语音对正常听力者来说依然足够清晰(Bronkhorst&Plomp,1992)所以鸡尾酒会问题本质是一个声源分离问题。


5.png

但是像我们刚才所说的“鸡尾酒会”的一些问题,我们来看一下一个理想二值模(IBM)应该是怎么样的?其动机是听觉掩盖现象和听觉场景分析,我们将理想二值模(IBM)看作是CASA(计算听觉场景分析,computational auditory scene analysis)的主要目标。


理想二值模(IBM)的定义如图中公式所示,其中 θ 是 dB 的一个本地 SNR 标准,通常设置为 0 dB;它实际上并不分离混合声音。如果说它可以是0,这个定义的重要点就是,它并不是传统来讲是这样的组合方式,我的意思是什么呢?在这里是认知的听力的表现

6.png

   理想二值模(IBM)演示


7.png

接下来是一个 IBM 受试者测试。IBM 分离戏剧性地提升了语音清晰度。 对于听力正常者(NH)而言,静态噪音的提升超过 7 dB(Brungart et al.’06; Li & Loizou’08; Ahmadi etal.’13),听力受损者(HI)超过 9 dB(Anzalone et al.’06; Wang et al.’09; Kressner et al.’16)通过把 IBM 作为目标,语音分离问题变成了一个二元分类问题。


二、基于 DNN 分类的语音分离

9.png

再来讲一些理想的方式,怎么样能够获得更好的神经网络,来更好的进行语音的区分呢?我之前的学生和我2003年共同写了特征学习的论文,首次提出使用深度神经网络解决语音分类问题。DNN被用作一个子波段分类器,从原始声学特征中执行特征学习。我们曾针对听力受损者(HI)做过一个清晰度测试 (Healy et al.’13)。一个非常有挑战性的问题:根据助听器使用者所言,背景噪音的干涉效应是一个最难的问题。因此要分两个阶段进行 DNN 训练以包含分类中的T-F语境。


12.png

一个与 -5 dB SNR的语音波形噪声混合的 HINT 句子


13.png


结果与声音演示:听力受损者(HI) 和 听力正常者(NH) 都表现出了清晰度提升;带有分离的听力受损者(HI) 要优于不带分离的听力正常者(NH)。


三、新噪音的泛化

14.png

尽管先前的语音清晰度结果令人印象深刻,但是还有一个主要的局限,即训练和测试噪音样本抽取自同一噪音声段,其主要表现在两个方面:1,语音话语不同;2,噪音样本被随机化。最近我们已经通过大规模训练为理想比例模(IRM)评估解除了限制(Chen et al.’16),IRM可以看作是 IBM 的简化版本。


下面再讲一下大规模训练。它主要包括以下几个方面;训练集包含混合有 10000 个非语音噪音的 560 个 IEEE 语句(共有 640000 个混合,噪音的总持续时间约为 125 个小时,训练混合的总持续时间大约 380 个小时,训练 SNR 固定为 -2 dB);唯一使用的特征是简单的 T-F 单元能量;DNN 架构包含 5 个隐藏层,每层包含 2048 个单元;测试话语和噪音都不同于训练中所使用的。



18.png

结果与演示:在所有条件下,NH 和 HI 测试者都获益于算法处理,而 HI 相对更多。


19.png

所以,什么才是鸡尾酒会问题的解决方案呢?我给出的一个答案是一个语音分离系统,它可以帮助听力受损者在所有的噪音环境之中获得与听力正常者一样的语音清晰度(Wang,March 2017)。

20.png

最后,我本次演讲的结论可以归结为三点:

  • 作为分类或模评估的鸡尾酒会问题的公式化使得监督学习的使用成为了可能。监督分离第一次证明了噪音中语音清晰度的提升。

  • DNN 大规模训练是一个有希望的方向,可实现多种条件下的语音分离。

  • 鸡尾酒会问题并非不可解决。

谢谢大家!icon.png

产业GMIS 2017机器之心汪德亮工程大象声科语音识别
返回顶部