无监督预训练语音识别模型wav2vec
在论文《wav2vec: Unsupervised Pre-training for Speech Recognition》中,作者通过学习原始音频表征来探索语音识别的无监督预训练。wav2vec在大量未标记音频数据上训练,之后生成的表征用于提高声学模型训练。作者预训练了一个简单的多层卷积神经网络(multi-layer convolutional neural network),而后者通过噪音对比(noise contrastive)二元分类任务进行优化。当只有几小时的转录数据可用时,作者关于WSJ的实验将基于字符的强log-mel滤波器组基线的WER降低达32%。该论文提出的方法实现了nov92测试集的2.78% WER。在使用三个数量级的少标记训练数据时,这种方法的性能优于文献中最佳的基于字符的系统Deep Speech 2。