说话人识别

说话人识别作为模式识别的一类,主要任务是通过待测试语音来判断对应的说话人身份。 从识别对象进行划分可以主要分为两个部分:说话人确认(speaker verification)和说话人辨认(speaker identification)。如果待测说话人的范围已知,需要通过语音段对待测说话人的身份进行判断,是否是属于某个说话人,则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知,需要从一定的范围内来对语音段对应的说话人身份进行辨别,这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。 从识别语音段的文本,可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题,待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题,待测试语音段的内容可以与系统中预先登记的内容不同,待测试说话人可以只说几个字来进行身份认证。

来源:维基百科
简介

说话人识别作为模式识别的一类,主要任务是通过待测试语音来判断对应的说话人身份。

从识别对象进行划分可以主要分为两个部分:说话人确认(speaker verification)和说话人辨认(speaker identification)。如果待测说话人的范围已知,需要通过语音段对待测说话人的身份进行判断,是否是属于某个说话人,则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知,需要从一定的范围内来对语音段对应的说话人身份进行辨别,这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。

从识别语音段的文本,可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题,待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题,待测试语音段的内容可以与系统中预先登记的内容不同,待测试说话人可以只说几个字来进行身份认证。

发展历史

1937 年,针对儿童被拐事件研究工作成为说话人确认技术研究的开端。 1945年,Kersta 提出了“声纹(Voiceprint)”的概念。1969年,J.E.Luck 在对语音特征分析的基础上,提出了将倒谱应用到说话人确认技术中,随后,B.S.Atal 从中受到启发,并通过对声道 进行分析建模提出了线性预测倒谱系数(Linear Predictive Cepstrum Coefficients,LPCC) 。在将其应用于说话人确认领域后发现此方法对方法的识别结果具有显著的提升。同世纪的 80 年代 S.B.Davis 和 Hermansky 对人耳的听觉特性的分析和研究,并针对性地提出了 Mel 频谱的梅尔倒谱系数。矢量量化技术(Vector Quantization,VQ)在七十年代应用于语音识别领域并取得了巨大的突破,随后 VQ 算法被应用于说话人确认领域。

为进一步提高识别结果,隐含马尔科夫模型(Hidden Markov Model, HMM)作为概率模型的代表被应用于说话人确认领域,此方法通过对状态的 转移进行描述而在说话人确认领域得到广泛的应用。上世纪 90 年代, Reynolds 提出混合高斯模型(Gaussian Mixture Model,GMM)来对语音特征的分布建模。 随后,SVM、WCCN、NAP、LDA等被用于说话人识别领域。

2004 年,Kenny 提出联合因子分析(Joint Factor Analysis,JFA), 在建模过程中将 GMM 的均值超矢量所包含的信息分解为两部分:说话人与说 话人之间的差异(Speaker Varaibility,SV),和相同说话人不同语音段之 间的差异(Session Variability/Channels Variability,CV)。 随后基于这个思想提出了i-vector、PLDA等算法,成为说话人识别中最经典的算法。

近几年,深度学习被应用到说话人识别领域,取得了优越的效果。

年份事件相关论文/Reference
1945提出了“声纹(Voiveprint)”的概念L.G Kersta. Voiceprint indentification[J]. Nature. 1962, 196: 1253-1257.
1969J.E.Luck 在对语音特征分析的基础上,提出了将倒谱 应用到说话人确认技术中Luck. J. E. Automatic Speaker Verification using Cepstral Measurements[J]. Journal of the Acoustical Society of America. 1969, 46(4B): 1026-1032.
1970利用语谱图(Spectrogram)对说话人的身份进行判断Bolt, R. H., Cooper, F. S., David Jr, E. E., Denes, P. B., Pickett, J. M., & Stevens, K. N. (1970). Speaker identification by speech spectrograms: a scientists' view of its reliability for legal purposes. The Journal of the Acoustical Society of America, 47(2B), 597-612.
1976B.S.Atal 通过对声道 进行分析建模提出了线性预测倒谱系数(Linear Predictive Cepstrum Coefficients,LPCC)Atal. B.S. Automatic Recognition of Speakers From Their Voices[D]. Proceedings of the IEEE. 1976, 64(4): 460-475.
1980S.B.Davis 和 Hermansky对人耳的听觉特性的分析和研究,并针对性地提出了 Mel 频谱的梅尔倒谱系数 (Mel Frequency Cepstral Coefficients,MFCC)Davis.S. and Mermelstein. P. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences[D]. IEEE Transactions on Signal Processing. 1980, 28(4): 357-366.
1974引入线性预测模型(Linear Prediction Model,LPM)到说话人识别中Crichton R.G, Fallside F. Linear Prediction Model of Speech Production with Applications to Deaf Speech Training[J]. Proceedings of the Institution of Electrical Engineers, 1974, 121(8): 865-873.
1978-1989将矢量量化技术(Vector Quantization,VQ)应用到说话人识别领域(1)Sakoe H, Chiba S. Dynamic Programming Algorithm Optimization for Spoken Word Recognition[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1978, 26(2): 43-49. (2) Waibel A. Modular Construction of Time-delay Neural Networks for Speech Recognition[J]. Neural Computation, 1989, 1(1): 39-46.
1994隐含马尔科夫模型(Hidden Markov Model, HMM)作为概率模型的代表被应用于说话人确认领域,此方法通过对状态的 转移进行描述而在说话人确认领域得到广泛的应用Matsui, T., & Furui, S. (1994). Comparison of text-independent speaker recognition methods using VQ-distortion and discrete/continuous HMM's. IEEE Transactions on speech and audio processing, 2(3), 456-459.
1995Reynolds 提出混合高斯模型(Gaussian Mixture Model,GMM)来对语音特征的分布建模D. Reynolds. Speaker Identification and Verification Using Gaussian Mixture Speaker Models[J]. Speech Communication. 1995, 17: 91-108.
2000其后,Reynolds 针对 GMM 方法在建模过程中对数据量需求大的缺陷,提出先利用通用背景模型 (Universal Background Model,UBM)对所有说话人的语音段特征建模Reynolds. D.A. Speaker Verification Using Adapted Gaussian Mixture Models[J]. Digital signal processing, 2000,7 (l) :19-41
2000Campbell 将其引入到说话人识别领域,用于解决语音段长度不同无法训练的难题Wan V., Campbell W.M. Support Vector Machines for Speaker Verification and Identification[C] //Neural Networks Signal Process PROC IEEE. 2000, 2: 775-784.
1996-2006为去除模型中信道的影响,信道补偿技术如类 内协方差规整(Within-Class Covariance Normalization,WCCN)、扰动 属性投影(Nuisance Attribute Projection,NAP)和线性判别分析(Linear Discriminant Analysis,LDA)等被应用于说话人确认领域(1)Hatch A.O., Kajarekar S. S., and Stolcke A., Within-class Covariance Normalization for SVM-based Speaker Recognition. INTERSPEECH. 2006. 1471–1474.(2)Solomonoff A, Campbell W. M., Boardman I., Advances in Channel Compensation for SVM Speaker Recognition, Acoustics, Speech, and Signal Processing (ICASSP).2005. 1. 629–632.(3)Hastie T, Tibshirani R. Discriminant Analysis by Gaussian Mixtures [J]. Journal of the Royal Statistical Society, 1996, 58(1):155-176.
2005Kenny 提出联合因子分析(Joint Factor Analysis,JFA)在建模过程中将 GMM 的均值超矢量所包含的信息分解为两部分:说话人与说 话人之间的差异(Speaker Varaibility,SV),和相同说话人不同语音段之 间的差异(Session Variability/Channels Variability,CV)Kenny P., Joint Factor Analysis of Speaker and Session Variability: Theory and Algorithms. Technology. Reputation. 2005:215.
2005Dehak 和 Kenny 等人提出了对说话人身份矢量(Identify Vector,i-vector)进行特征建模的方法,模型中提出利用一个低维空间来表示不同语音之间的差 异。Kenny P., Joint Factor Analysis of Speaker and Session Variability: Theory and Algorithms. Technology. Reputation. 2005:215.
2007Kenny 等人提出将人脸识别领域中的概率线性鉴别分 析(Probabilistic Linear Discriminant Analysis,PLDA)应用于说话人识别领域。Prince S. J. and Elder J. H., Probabilistic Linear Discriminant Analysis for Inferences about Identity[C]. IEEE Intentional Conference Computer Vision, 2007. 1–8.
20112011 年提 出一种 i-vector 的长度规一化技术(length normalization,LN),主要针对 i-vector 的分布与 PLDA 中的高斯假设不匹配的问题Daniel G. R. and Carol Y. Espy-Wilson, “Analysis of i-vector Length Normalization in Speaker Recognition Systems,” in INTERSPEECH 2011, Florence, Italy, August, 2011: 3283–3291.
2014深度神经网络应用到说话人识别领域Lei, Y., Scheffer, N., Ferrer, L., & McLaren, M. (2014, May). A novel scheme for speaker recognition using a phonetically-aware deep neural network. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on(pp. 1695-1699). IEEE.

发展分析

瓶颈

现阶段在无噪音环境下的说话人识别可以超过人类的识别准确率,但在面对以下问题时仍然存在不足:

  1. 短语音的说话人识别:当语音段较短的时候,说话人识别的准确率会显著下降。
  2. 训练集与测试集不匹配:当训练集数据与测试集数据不同源时,会导致测试的结果不尽如人意。
  3. 低信噪比条件下:当测试语音处于比较喧闹的环境时,会影响测试的结果。

未来发展方向

未来说话人识别的发展方向主要是针对上述提到的三个问题,通过利用迁移学习、深度学习、强化学习等方法,提高说话人识别在实际应用中的效果。

Contributor: Yilin Pan

相关人物
Patrick Kenny
Patrick Kenny
Joseph P. Campbell
Joseph P. Campbell
简介
相关人物