淑婷 杜伟编译

语音识别训练时间由7天降至11.5小时,IBM提出分布式深度学习技术

语音识别系统构建过程通常由两部分组成:训练和识别,而训练需要对预先收集的语音、文本等数据进行处理,获取语音识别系统所需的模型。因而,训练时间和模型大小至关重要。IBM 在其新发布的论文中提出一种异步分散并行随机梯度下降的分布式处理架构,将语音识别训练时间缩短到了 11.5 小时。

可靠、稳健、可泛化的语音识别机器学习领域一个持续的挑战。通常,训练自然语言理解模型需要包含数千小时语音和数百万(甚至数十亿)单词文本的语料库,以及能够在合理时间内处理这些数据的强大硬件。

为了减轻计算负担,IBM 在其新发布的论文《Distributed Deep Learning Strategies for Automatic Speech Recognition》中提出了一种分布式处理架构,该架构在流行的开源基准 Switchboard 上实现了以往 15 倍的训练速度,而没有损失准确率。论文作者表示,在包含多个显卡的系统上部署该架构,它能够将总的训练时间从几周缩短为几天。

该论文计划在下个月的 IEEE 国际声学、语音与信号处理会议(ICASSP)上发表。

论文作者 Wei Zhang、Xiaodong Cui 和 Brian Kingsbury 在即将发表的博客中解释称:训练类似苹果的 Siri、谷歌助手、亚马逊的 Alexa 这样的自动语音识别系统需要复杂的编码系统来将语音转化为深度学习系统能够理解的特征,以及相应的解码系统来将输出转化为人类可读的文本。而模型也往往更大,导致大规模训练变得更加困难。

该团队的并行解决方案需要增加批量或可以一次性处理的样本数量,但需要加以区分,这将会对准确率产生负面影响。相反,他们使用「原则性方法」将批量增加至 2560,同时应用了称为异步分散并行随机梯度下降(ADPSGD)的分布式深度学习技术。

据研究人员解释,大多数深度学习模型要么采用同步方法(受慢系统影响较大),要么采用基于参数服务器(PS)的异步方法(往往生成不太准确的模型)进行优化。相比之下,IBM 在去年一篇论文中首次详细说明的 ADPSGD 是异步和分散的,保证模型准确率处于基线水平,并为某些类型的模型优化提供加速。

在测试中,论文作者称 ADPSGD 将 ASR 工作运行时间从单个 V100 GPU 上的一周缩短至 32-GPU 系统上的 11.5 小时。他们希望未来的工作算法和系统可以处理更大的批量以及优化更强大的硬件。

Zhang、Cui 和 Kingsbury 写道:「在半天内完成一项训练是比较理想的,因为这样能让研究人员快速迭代开发新的算法。同时还使得开发人员可以快速周转时间,让现有模型适应他们的应用程序,尤其适用于那些需要大量语音来实现鲁棒性和可用性所需的高准确率的定制用例。」

原文链接:https://venturebeat.com/2019/04/10/new-ibm-technique-cuts-ai-speech-recognition-training-time-from-a-week-to-11-hours/

理论语音识别IBM分布式深度学习
1
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

推荐文章
暂无评论
暂无评论~