微软语音识别里程碑式突破,Switchboard 词错率降至 5.1%

Switchboard 是一个电话通话录音语料库,作为语音识别系统的基准,其已被使用超过 20 年。去年,微软转录系统取得了 5.9% 的词错率(即人类同等水平)之后,通过采用了一个更复杂的多转录系统,微软把词错率再降至 5.1%。这是一个全新的行业里程碑,这表明微软已经做到了转录语音词语,但是在帮助机器理解语意和内容方面,还有很多工作要做。从语音识别到语音理解,将是语音技术发展的下一个主要前沿。


去年,微软语音与对话研究小组宣布了一项里程碑式成果,在 Switchboard 会话语音识别任务中达到了人类同等水平,这意味我们已经创造了一项可像人类专业速记员一样识别词语的技术。

在我们的转录系统取得了 5.9% 的词错率(即人类同等水平)之后,其他研究员同时进行着自己的研究,采用了一个更复杂的多转录系统,词错率再降至 5.1%。这是一个全新的行业里程碑,本周末发行的技术报告将对这一系统作详细介绍。

Switchboard 是一个电话通话录音语料库,作为语音识别系统的基准,其已被使用超过 20 年。这一任务涉及转录陌生人之间讨论体育与政治等话题的对话。

相比于去年,通过对基于神经网络的声学与语言模型的一系列提升,我们把词错率降低了大约 12 个百分点,我们引入了一种额外的 CNN-BLSTM 模型,用于提升声学建模。此外,我们在 frame/senone 和词语层面都使用了结合来自多声学模型的预测的方法。

然而,通过使用对话片段的完整历史进行下一步的预测,我们加强了识别器的语言模型,从而允许模型高效地适应对话的话题和局部语境。

我们的团队从 CNTK 2.1 中获益匪浅,尤其是在探索模型架构和优化超参数方面。此外,微软在云计算基础设施方面的投资,尤其是 Azure GPU,有助于提升效率和速度,借此我们可以训练模型,试验新想法。

在过去的 25 年,在语音识别方面达到人类同等水平一直是我们的研究目标。我们的研究团队非常高兴看到每天有数百万人使用我们的产品。


语音识别的进步催生了诸如 Speech Translator 这样的应用,它可以实时地将PPT翻译成多种语言。

学界和业界的许多研究团队在语音识别方面做着伟大工作,我们的工作也从社区整体进步中受益良多。在 Switchboard 上取得了 5.1% 的词错率是一件意义非凡的成就。语音识别领域依然存在很多挑战,比如在噪杂环境下远场麦克风的语音识别,方言识别,或训练数据有限的说话风格或语言的识别等方面达到人类水平。我们已经做到了转录语音词语,但是在帮助机器理解语意和内容方面,我们还有很多工作要做。从语音识别到语音理解,是语音技术发展的下一个主要前沿。

原文链接:https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/

入门微软语音识别Switchboard黄学东理论准确率
暂无评论
暂无评论~