可靠、稳健、可泛化的语音识别是机器学习领域一个持续的挑战。通常,训练自然语言理解模型需要包含数千小时语音和数百万(甚至数十亿)单词文本的语料库,以及能够在合理时间内处理这些数据的强大硬件。
为了减轻计算负担,IBM 在其新发布的论文《Distributed Deep Learning Strategies for Automatic Speech Recognition》中提出了一种分布式处理架构,该架构在流行的开源基准 Switchboard 上实现了以往 15 倍的训练速度,而没有损失准确率。论文作者表示,在包含多个显卡的系统上部署该架构,它能够将总的训练时间从几周缩短为几天。
该论文计划在下个月的 IEEE 国际声学、语音与信号处理会议(ICASSP)上发表。
论文作者 Wei Zhang、Xiaodong Cui 和 Brian Kingsbury 在即将发表的博客中解释称:训练类似苹果的 Siri、谷歌助手、亚马逊的 Alexa 这样的自动语音识别系统需要复杂的编码系统来将语音转化为深度学习系统能够理解的特征,以及相应的解码系统来将输出转化为人类可读的文本。而模型也往往更大,导致大规模训练变得更加困难。
该团队的并行解决方案需要增加批量或可以一次性处理的样本数量,但需要加以区分,这将会对准确率产生负面影响。相反,他们使用「原则性方法」将批量增加至 2560,同时应用了称为异步分散并行随机梯度下降(ADPSGD)的分布式深度学习技术。
据研究人员解释,大多数深度学习模型要么采用同步方法(受慢系统影响较大),要么采用基于参数服务器(PS)的异步方法(往往生成不太准确的模型)进行优化。相比之下,IBM 在去年一篇论文中首次详细说明的 ADPSGD 是异步和分散的,保证模型准确率处于基线水平,并为某些类型的模型优化提供加速。
在测试中,论文作者称 ADPSGD 将 ASR 工作运行时间从单个 V100 GPU 上的一周缩短至 32-GPU 系统上的 11.5 小时。他们希望未来的工作算法和系统可以处理更大的批量以及优化更强大的硬件。
Zhang、Cui 和 Kingsbury 写道:「在半天内完成一项训练是比较理想的,因为这样能让研究人员快速迭代开发新的算法。同时还使得开发人员可以快速周转时间,让现有模型适应他们的应用程序,尤其适用于那些需要大量语音来实现鲁棒性和可用性所需的高准确率的定制用例。」
原文链接:https://venturebeat.com/2019/04/10/new-ibm-technique-cuts-ai-speech-recognition-training-time-from-a-week-to-11-hours/