语音增强

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。 主要包括1. 语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3. 语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

来源:Wikipedia
简介

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。主要包括1.语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3.语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

[描述来源:Wikipedia, URL: https://en.wikipedia.org/wiki/Speech_enhancement]

语音增强问题因通道数不同分为单通道增强以及多通道增强。多通道方法包括波束形成与独立成分分析等方法,单通道方法包括信号处理方法以及掩膜(masking)估计方法,其中掩膜估计方法包括模型化方法以及近几年兴起的有监督学习方法。

发展历史

描述

自上世纪70年代起,随着越来越多的语音设备投入到日常生活中,语音增强问题也逐渐受到各国学者的重视,提出了大量的语音增强算法,包括基于信号处理的方法、模型化的频谱估计方法,以及有监督学习方法。现阶段基于神经网络的语音增强方法收到了业界学者的关注。

主要事件

A

B

C

1

年份

事件

相关论文/Reference

2

1976-1988

提出了基于信号处理的方法,提出了谱减法,维纳滤波法以及语音准周期性和语音产生机理的数字信号处理算法

R. H. Frazier et al. Enhancement of speech by adaptive filtering. Proc. IEEE Int. Conf. Acoustic, Speech and Signal Processing, 1976: 251-253. Douglas O Shaughnessy, Linear Predictive Coding, IEEE Potentials, 1988 L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Englewood Cliffs, NJ: Prentice Hall, 1978.

3

1988-1989

使用多层感知机从带噪语音中预测纯净波形

S. Tamura and A. Waibel. Noise reduction using connectionist models. In Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing, 1988: 553–556. S. Tamura. An analysis of a noise reduction neural network. In Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing, 1989: 2001–2004.

4

2000

提出使用GMM来对语音建模,进行语音增强

S. T. Roweis. One microphone source separation. In Advances in Neural Information Processing Systems, volume 13, 2000: 793–799.

5

2003

利用主成分分析对语音增强建模

G.-J. Jang and T.-W. Lee. A maximum likelihood approach to single-channel source separation. Journal of Machine Learning Research, 2003(4):1365–1392.

6

2004

利用掩膜估计的方法进行语音增强

M. Seltzer, B. Raj, and R. Stern. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004 (4):379–393.

7

2008

将非负矩阵分解应用到语音增强任务中

Wilson K W, Raj B, Smaragdis P, et al. Speech denoising using nonnegative matrix factorization with priors[C]//Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on. IEEE, 2008: 4029-4032.

8

2012

SVM被引入到语音增强方法中,用于提高算法的泛化能力

K. Han and D. Wang. A classification based approach to speech segregation. Journal of the Acoustical Society of America, 2012(132): 3475–3483.

9

2013

将深度神经网络视为分类器,将纯净语音从语音信号中分离出来

Y. Wang and D. Wang. Towards scaling up classification-based speech separation. IEEE Trans. Audio, Speech, Lang. Process, 2013: 1381–1390.

发展分析

瓶颈

对单通道不稳定噪声的语音增强问题的处理是这个领域研究的难点。

未来发展方向

包含越来越少的模型假设的语音增强算法是未来的发展方向,例如,噪声与语音的独立性关系假设、噪声的连续性假设或者噪声的不变性假设等。此外,算法的实时性也会因应用场景而变得越来越重要。

Contributor: Yilin Pan

相关人物
John Makhoul
John Makhoul
麻省理工学院博士,BBN科技首席科学家,从事语音信号研究。他在线性预测编码方面的工作被用于网络语音协议(NVP),使得语音信号能够通过ARPANET传输。2016年,他因在语音和语言处理方面的贡献而获得了ISCA奖章。
Yariv Ephraim
Yariv Ephraim
Philip Loizou
Philip Loizou
得克萨斯大学达拉斯分校教授,IEEE Transactions on Biomedical Engineering和International Journal of Audiology杂志的副主编,1995年在亚利桑那州立大学获得博士学位。研究兴趣主要为信号处理、语音处理(语音增强和降噪)、言语感知(正常和听力受损的听众)、人工耳蜗等。
李锦辉
李锦辉
简介
相关人物