谷歌技术博客新文,通过序列转换实现联合语音识别和说话人识别
能够识别「谁说了什么」是通过自动化手段理解人类对话音频的关键步骤。例如,在医生和患者之间的医疗对话中,患者在回答「您是否经常服用心脏药物?」时发出的「是」与医生的修辞「是吗?」有着截然不同的含义。传统的说话人识别(SD)系统使用两个阶段,第一阶段检测声谱中的变化以确定对话中的发言者何时改变,并且第二阶段识别对话中的各个发言者。这种基本的多阶段方法已有近二十年的历史,在此期间只有说话人变化检测组件得到了改进。随着最近开发的新型神经网络模型 - 递归神经网络传感器(RNN-T)- 我们现在有了一个合适的架构来改善说话人识别的性能,解决我们最近提出的先前识别系统的一些局限性。正如我们最近在 Interspeech 2019 上发表的论文「通过序列转换进行联合语音识别和说话人识别」所述,我们开发了一种基于 RNN-T 的说话人识别系统,并且在性能方面取得了突破,从大约 20%的单词识别错误率提升到 2%,改进 整整 10 倍。