谷歌 AI 更新博文「全神经元设备语音识别器」
自2012年以来,研究表明,通过深度学习可以显着提高语音识别准确度,谷歌从而也在早期便开始采用相关技术到语音搜索等产品中。这也正是该领域革命的开始的标志:谷歌每年都开发出新的架构,进一步提高产品质量。从深度神经网络(DNN)到递归神经网络(RNN),长期短期记忆网络(LSTM),卷积网络(CNNs)等等。然而延迟仍然是问题难点。谷歌今日正式宣布推出端到端,全神经应用于设备的语音识别器,为Gboard中的语音输入提供支持。在谷歌人工智能最近的论文“移动设备的流媒体端到端语音识别”中,其研究团队提出了一种使用RNN传感器(RNN-T)技术训练的模型,该技术同时也能应用在手机上。这也就意味着不会出现更多的网络延迟或紊乱,同时保证即使是在脱机状态,新的识别器也能够运转。该模型保证当人说话时,它会逐个字符地输出单词,就如同有人在实时键入一样,达到语音准确识别的效果。