Facebook 发布低延迟在线语音识别框架
Facebook 人工智能研究表示,目前已开源 wav2letter @ anywhere,这是一种基于深度学习的推理框架,可在云或嵌入式边缘环境中实现在线自动语音识别的快速性能。Wav2letter @ anywhere 基于基于神经网络的语言模型 wav2letter 和 wav2letter ++,在 2018 年 12 月发布时,FAIR 称之为可用的最快的开源语音识别系统。自动语音识别(ASR)用于将口头语音转换为文本,然后推断出说话者的意图以执行任务。通过 wav2letter ++ 存储库在 GitHub 上可用的 API 旨在支持并发音频流和流行的深度学习语音识别模型,例如卷积神经网络(CNN)或递归神经网络(RNN),以便提供在线 ASR 所需的规模。