谷歌AI将语音识别错误率降低29%
用于语音识别的基于注意力的序列到序列模型使用单个神经网络联合训练声学模型、语言模型(LM)和对准机制,并且仅需要并行的音频 - 文本对。因此,端到端模型的语言模型组件仅在转录的音频 - 文本对上训练,这导致性能降低,尤其是在罕见的单词上。虽然已经有各种各样的工作考虑将在纯文本数据上训练的外部LM纳入端到端框架,但没有一项考虑到模型所做的特征误差分布。在论文《A spelling correction model for end-to-end speech recognition》中,作者提出了一种利用纯文本数据的新方法,通过训练拼写校正(SC)模型来明确纠正这些错误。在LibriSpeech数据集上的实验证明了当直接校正顶级ASR假设时,所提出的模型导致WER相对于基线模型的相对改善18.6%,并且当使用外部LM进一步重新校正扩展的n-最佳列表时,相对改善29.0% 。