抗噪鲁棒语音识别在Aurora4基准上的机器与人类对比

注:本篇paper已发表在2018年的IEEE/ACM TASLP上,感兴趣的朋友可关注。相关信息如下:Tian Tan, Yanmin Qian, Hu Hu, Ying Zhou, Wen Ding, Kai Yu. Adaptive very deep convolutional residual network for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, DOI: 10.1109/TASLP.2018.2825432,2018.

论文标题:Noise Robust Speech Recognition on Aurora4 by Humans and Machines

作者:Yanmin Qian, Tian Tan, Hu Hu and Qi Liu

摘要

噪声环境下的语音识别一直是一个巨大挑战。本文在我们之前开发的极深卷积神经网络 VDCNN 基础上,通过引入残差学习得到 VDCRN 模型进一步提升模型鲁棒性。然后在 VDCRN 模型上开发聚类自适应训练方法来减少模型在噪声环境下的训练和测试间失配。此外,还使用基于未来信息预测向量的新型 LSTM-RNN LM 来改善系统性能。最终所开发的抗噪语音识别系统,在噪声标准数据集 Aurora4 上达到了 3.09% 的词错误率,也是目前在此任务上报道的最好结果。经过我们分析对比,这个错误率已经非常接近真实人类在这个任务上的性能,在抗噪鲁棒语音识别研究上具有里程碑意义。

背景:

利用深度学习方法,语音识别性能在最近的几年得到了大幅性能提升,然而在高噪声的环境下,目前的语音识别系统性能还是很差。真实噪声环境下训练和测试之间的失配是系统性能变差的主要原因。因此,抗噪语音识别是语音识别大规模实用中急需要解决的主要挑战之一。目前抗噪语音识别的大部分方法可以归为两类:1)前端信号或者特征的去噪及增强;2)后端声学模型的自适应。

在这篇文章中,我们的方法主要围绕后端声学模型的改进展开。在我们之前两个工作基础上,包括极深卷积神经网络 VDCNN【1,2】和深度模型的聚类自适应训练 CAT【3,4】,我们进一步提出了用于抗噪的极深卷积残差神经网络以及在此模型基础上开发的聚类自适应训练方法,在声学层面大幅改善噪声环境下的失配问题。实验结果显示,我们提出的方法即使在没有任何前端降噪的情况下,在 Aurora4 上取得了目前报道的最好实验结果。最后,我们还对机器和人在噪声环境下的标注结果进行了分析和对比。本文的系统性能已经非常接近人类水平。

本文新方法:

1.极深卷积残差神经网络

课题组之前开发的 VDCNN 模型,在噪声环境下表现出了特殊的鲁棒性能,相比递归神经网络 LSTM 等,抗噪优势明显。在本文中,我们进一步将 VDCNN 进行了扩展,加入了残差学习策略和 batch normalization,期望得到进一步的性能提升。模型结构图如图 1 所示:在之前 VDCNN 基础上,我们用残差块去替代之前模型中的卷积快。在具体实现上,有两种不同的残差块需要设计,如下图 1 的左边的黑框所示。
图 1 极深卷积残差神经网络结构图 VDCRN2.聚类自适应训练

自适应训练是一种有效降低和减少训练与测试间失配的方法。之前聚类自适应训练(CAT)成功在 GMM-HMM 和 DNN-HMM 上得到了应用。我们在 VDCRN 基础上,也开发了聚类自适应训练方法(CAT-VDCRN)。在聚类自适应训练中,基类的选择最为重要,基类的模型参数也构建了经典参数空间。在自适应的时候,自适应相关参数通过将不同基类进行组合,来得到最后的自适应模型。

在 VDCRN 中,我们选择了两种不同的基分别构建 CAT,包括 a)特征图 feature map 作为基;b)卷积核 Filter 作为基;

1)特征图基 feature map base,如下图 2 中的左图所示。每一层的输出特征图都构建在输入特征图的基类上,自适应阶段通过学习不同基类之间的组合系数得到最终模型。更加组合系数是标量形式还是举证形式,可以分别有如下两种公式:

2)卷积核基 filter bases,如图 2 中的右图所示。首先通过在基类卷积核基础上,组合得到新的卷积核参数,然后再进行正常的卷积神经网络的计算。同样,根据组合系数是标量还是矩阵形式,可以有如下两种计算公式:

图 2 CAT-VDCRN 上聚类自适应训练,包括以特征图为基和卷积核为基3.基于未来信息预测向量的新型 LSTM-RNN LM

为了进一步提升噪声环境下的识别性能,我们进一步改进了语言模型,在传统 LSTM-RNN LM 基础上,将未来信息进行准确预测和表示,然后结合进 LSTM-RNN LM 的建模中去,我们把这种新的语言模型命名成 feature-vector LSTM-RNN LM (FV-LSTM-RNN LM)。FV-LSMT-RNN-LM 之前我们已经在其他任务上进行了很好的验证【5】,这里我们将它应用到抗噪语音识别上来,发现它同样可以得到比传统 SLTM-RNN LM 更好的系统性能。

实验:

本文提出的方法在抗噪语音识别的基础库 Aurora4 上进行了验证,结果如下

(1)VDCRN vs. VDCNN

表 1 展示了本文新构建的 VDCRN 模型和我们之前提出的 VDCNN 模型的性能比较。可以看到,尽管之前 VDCNN 已经取得了很好的抗噪识别优势,新提出的 VDCRN 模型可以在 VDCNN 基础上得到更进一步的抗噪语音识别性能改善。
(2)CAT-VDCRN

在 VDCRN 模型上,CAT 聚类自适应训练的实验如下表 2 和表 3 所示。表 2 展示了利用不同类别的基,以及不同形式的基类组合系数的结果;表 3 展示了在 VDCRN 模型的不同位置进行聚类自适应训练的结果。实验结果显示,利用矩阵的组合系数,CAT 在两种形式的基类上均得到了大幅性能提升;在 VDCRN 的较低层做 CAT 可以得到更好的系统性能。

(3)语言模型和系统融合

在以上声学改善基础上,我们通过应用更好的 FV-LSTM-RNN LM 语言模型以及系统融合,进一步构建更好的系统,相关系统性能比较如下表 4 所示。为了和人类在噪声环境下的识别性能做直观比较,人的标注准确率列在了表 4 最后一行。从结果可以看到,我们构建系统的最好性能达到了平均词错误率 3.09%,这是目前报道的在 Aurora4 上的最好结果,相比之前报道的 7% 左右的系统,有了非常大幅度的性能提升。单纯加性噪声(子集 B)和卷积噪声(子集 C)上,系统性能以及基本上接近在干净噪声(子集 A)上的结果。此外,相比人类识别结果 2.28% 的错误率,我们的系统以及非常接近,在 A/B/C 上基本上都和人类持平,在同时有加性和卷积噪声的子集 D 上尚有差距。
我们将机器和人类的识别错误中,频率最高的部分分析展示如表 5 所示。发现人和机器的三类错误上的很多错误模式还是比较相近的。相比替代错误和插入错误两者差距不大,在删除错误上机器的性能要差比较多。因而,删错错误高的问题是抗噪语音识别的一个主要挑战之一。
结论:

(1)本文通过提出的新型模型结构 VDCRN 以及在此上开发的聚类自适应训练方法 CAT,显著改善了训练和测试直接的失配,大幅改善了抗噪语音识别的性能;
(2)本文构建的最终系统,在 Aurora4 上得到了 3.09% 的词错误率。这是目前报道的在此任务上的最好结果,也已经接近了人类的水平;
(3)在既有加性又有卷积噪声的环境下,机器和人类的差距还是比较明显;同时机器在噪声环境下的删除错误也明显要比人类高。以上这些问题也是下一步抗噪语音识别的主要挑战。


参考文献:
【1】Yanmin Qian, Mengxiao Bi, Tan Tian, and Kai Yu,「Very deep convolutional neural networks for noise robust speech recognition,」IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 24, no. 12, pp. 2263–2276, 2016.
【2】Yanmin Qian and Philip C Woodland,「Very deep convolutional neural networks for robust speech recognition,」in SLT, 2016.
【3】Tian Tan, Yanmin Qian, and Kai Yu,「Cluster adaptive training for deep neural network based acoustic model,」IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 24, no. 03, pp. 459–468, 2016.
【4】Tian Tan, Yanmin Qian, Maofan Yin, Yimeng Zhuang, and Kai Yu,「Cluster adaptive training for deep neural network,」in ICASSP. IEEE, 2015, pp. 4325–4329.
【5】Qi Liu, Yanmin Qian, and Kai Yu,「Future vector enhanced lstm language model for lvcsr,」in ASRU, Okinawa, Japan, December 2017.

理论思必驰论文ICASSP 2018语音识别
思必驰AISpeech
思必驰AISpeech

思必驰是国内领先的语音交互人工智能高科技公司,是国内唯一专注智能硬件领域的人机交互平台公司,为物联网及相关垂直领域,提供自然语言交互解决方案,包括DUI全链路智能对话定制平台、人机对话操作系统、人工智能芯片模组等,并在赋能智能硬件终端后,丰富后端服务资源,满足用户的产品体验和任务型需求。

思必驰AISpeech
思必驰AISpeech

专注人性化的智能语音交互技术。

返回顶部