从历史视角看语音识别

本文是《美国计算机协会通迅》上的一篇论文,机器之心对其进行了编译,以下为本文的内容概述:

从卡耐基梅隆大学几代研发人员开始,本文对过去40年人们从语音识别技术进步所获得的启示进行了探讨。

这些年的一些主要成就已被证实可以实际用于苹果、微软等公司的领先行业语音识别系统。

语音识别将通过图灵测试,使星际迷航般的移动设备愿景成为现实。这将有助于消除人类与机器之间的隔阂。这将有利于促进和增强人们之间的自然会话。实现这个大胆的梦想需要解决的六项难题。

随着苹果推出Siri,谷歌和微软推出类似的语音搜索服务,人们自然想知道,为什么语音识别技术花了这么长时间才发展到这样的水平。同时,我们也想知道,该技术什么时候才有望达到较接近人类水平的性能。1976年,作者之一(Reddy)写了一篇关于当时语音识别最高水平的综述文章。该领域的非专业人士阅读原文会有所收获。34在这里,我们共同从历史视角来阐述语音识别领域的进步。由于篇幅限制,本文将不进行全面的技术评述,而是将范围限定为讨论40年前所没有的语音识别技术以及那些帮助解决了一些最棘手问题的进步。

语音识别多年来一直是科幻小说的常见场景,但是在1976年其实际水平与虚构世界中那些牵强附会的功能大相径庭。尽管如此,Reddy大胆预测,未来10年内有望实现成本为20000美元的联网语音系统。虽然超出了预计时间,但研究人员最终不仅达到了目标,而且建立系统的成本低得多并继续大幅下降。今天,在很多智能手机里,业内提供了明显超出Reddy预测的免费语音识别服务。在大多数领域,科幻作家的想象力远远超过现实。

语音识别技术是少有的例外之一。语音识别的独特性不仅仅是因为其成就:尽管已有成果斐然,但剩下的难题和目前已克服的一样令人生畏。

1995年,Windows95上首次搭载微软SAPI,它使应用程序开发者能够在Windows上创建语音程序。1999年,支持电话IVR的VoiceXML论坛成立。尽管语音电话IVR在商业上获得了成功,但事实表明,「语音输入」和「屏幕输出」的多模态隐喻对信息消费更自然。2001年,比尔盖茨在美国消费电子展(CES)上展示了一台代号为MiPad的原型机。16Mipad展现了语音多模态移动设备的愿景。随着最近苹果、谷歌和微软在产品中采用语音识别技术,我们正见证着设备处理相对无约束的多模态对话的能力不断提高。尽管仍面临许多困难,我们还是看到了这几十年来研究与开发的成果。我们认为,语音界正在向前迈进,争取未来40年通过图灵测试,最终目标是在日常场景中媲美并超过人类的语音识别能力。

在本文中,我们重点介绍那些实际运用情况良好的主要语音识别技术,并总结了对于将语音识别从移动设备上当前提供的服务推动到下一阶段至关重要的六大困难领域。过去十年内发表的众多技术论文中有更全面的技术讨论,其中包括《IEEETransactionsonAudio》(有关音频的汇刊)、《SpeechandLanguageProcessing》(语音与语言处理)和《ComputerSpeechandLanguage》(计算机语音与语言),以及ICASSP、Interspeech和IEEEASRU研讨会的论文。同时也有大量文章和书籍介绍了过去四十年内研发的各种系统和技术。

基础语音识别

1971年,由AllenNewell领导的一个语音识别研究小组建议引入更多知识来源来解决此问题。报告讨论了六个层次的知识:声学、参量、音素、词汇、语句和语义。Klatt23综述了ARPA资助的各种语音理解系统的性能,这些系统是为了实现NEwell报告的目标。

国防部高级研究计划署(DARPA)赞助了为期多年的语音理解研究(SUR)项目,意在探索Newell报告中的创意。得到资助的研究小组不多,Reddy1976年在卡耐基梅隆大学领导的小组是其中之一。该小组开发了一系列的语音识别系统:Hearsay、Dragon、Harpy和SphinxI/II。经过四十年时间,Reddy和同事们创造了一些历史性的口语系统演示。例如,机器人的语音控制,大词汇量的联网语音识别,说话者无关的语音识别和无限制词汇听写。Hearsay-I是首批有能力进行连续语音识别的系统之一。Dragon系统是首批将语音建模为隐随机过程的系统之一。Harpy系统引入了定向搜索(BeamSearch)概念。几十年来,定向搜索一直是高效搜索和匹配中运用最广泛的技术。1987年研发的Sphinx-I是最早演示说话者无关的语音识别系统。1992年研发的Sphinx-II在同年DARPA资助的语音基准评测中获得了最高的识别准确度,这主要得益于其在高斯混合和马尔可夫状态层次上用栓连参数平衡了可训练性和高效性。

根据DARPA资助的多次语音评测,语音识别词错误率已经是评估进步的主要指标。如图1所示,历史性的进步也引导业内人士致力于解决更困难的语音识别任务。在最新的电话总机任务中,通过采用多伦多大学和微软的研究人员率先提出的深度学习框架,微软和IBM的研究人员分别将词错误率降低到了一个新的里程碑。

上世纪70年代初,人们预计产生更高层次的知识来源需要人工智能方面有重大突破。按照Hear-say系统的体系结构设计,许多半自治模块既能在一项语音识别任务中相互沟通和合作,也能分别专注于自己的专业领域。相比之下,Dragon、Harpy和SphinxI/II系统全都是基于单一且相对简单的联合全局优化建模原则。Newell报告中的每一个层次都由一个称为「隐马尔可夫过程」的随机过程表示。从概念上讲,连续层次就像嵌套分程序一样嵌套,所以组合过程同样也是一个(非常大的)隐马尔可夫过程。

寻找最佳匹配单词序列W以匹配输入语音X的解码过程远不是一个简单的模式识别问题,因为它面临着搜索数量近乎天文数字的单词模式。上述解码过程是寻找一个单词序列,其对应的声学模型和语言模型最匹配输入特征向量序列。因此,用经过训练的声学模型和语言模型进行解码的过程通常被称为搜索过程。图搜索算法在人工智能、运筹学和博弈论领域得到了广泛研究,它也是语音识别中的搜索问题的基础。

解码过程的重要性在DragonNaturallySpeaking中得到了最好的诠释。该产品是在作者之一(Baker)领导下历时15年开发完成的。被Nuance收购后,它历经一代又一代的计算机技术变革,存活了15年。DragonSystems的成功并非由于发明了性能优越的全新算法。DragonNaturallySpeaking的技术发展类似于本文回顾的同期总体发展。最显著的差别不是错误率更低的算法,而是着重于更好地平衡成本与性能的简化算法。从成立开始,DragonSystems的长期目标就是开发一款实时、大词汇量的连续语音听写系统。为此,Dragon制定了持续数十年的一贯企业使命,达到最终目标需要这一使命,但每个时间段都会体现为适当的短期目标和中期目标:开发最好的语音识别系统,使其能够实时运行在当代桌面电脑上。

1976年我们所不知道的

Reddy最初的综述文章中阐述的每个组件都取得了巨大进步。我们不打算一一列举出过去几十年内发明的各种系统和方法。表1列出了经证实在行业领先的语音识别系统中行之有效的主要成就。如今,我们能够使用HTK、Sphinx、Kaldi、CMULM工具包和SRILM等开放性的研究工具来搭建一个可运行的系统。然而,行业中的竞争优势主要源自使用云端提供的大量数据来不断更新和改进声学模型和语言模型。本文讨论了催生手机语音搜索的技术进步,比如图2所示的苹果、谷歌和微软语音搜索。

依托强大的计算基础设施和大量训练数据建立的统计机器学习框架,构成了促进语音识别发展的最主要力量。这使机器学习能统一处理音素、单词、语法和语义知识表示。例如,语音字符串的显式分割和标记不再必不可少。语音匹配和单词检验与单词序列生成得到了统一,后者依赖于通常使用语境相关的语音声学模型得到的最高综合评分。

统计机器学习

早期的语音识别方法的目标是从一组离散的标签中找到最接近的匹配声音标签。在非概率模型中,根据对两个声音相似性的估计来设定声音标签之间的估计「距离」。在一种形式中,概率模型以正确的标签是假设标签的概率(也被称为「混淆」概率)为条件,使用观察特定声音标签作为最佳匹配标签的条件概率估计。相比估计高斯分布的平均值(另一种常见表示),估计每个可能的声音与每个可能的标签发生混淆的概率所需的训练数据多得多。该方法对应Reddy1976年综述文章中所描述的「分割与标记」中的「标记」部分,无论是否伴随分割,都是1980年代时基于非概率的模型常采用的做法。这个距离可能仅仅是需要最小化的得分。

Reddy发表前述综述文章时,语音识别中的知识表示才刚刚开始迎来重要转变。这一变化的例子是将语音表示为隐马尔可夫过程。我们通常用首字母缩写HMM指代「隐马尔可夫模型」,这有点用词不当。因为隐的是过程而不是模型。从数学上看,隐马尔可夫过程的模型有一个名为期望最大化(EM)算法的学习算法,它具有广泛适用的收敛定理。在隐马尔可夫过程的特定情况下,通过Forward-Backward算法可以得到一种非常高效的实现。1980年代末以来,人们还在最大互信息或相关最小错误准则的基础上发明了统计判别训练技术。

2010年以前,基于HMM的高斯模型混合通常是最先进的语音识别系统采用的技术。这些模型采用的特征通常是梅尔频率倒谱系数(MFCC)。尽管人们开展了许多工作创建模仿人类听觉过程的特征,我们要强调通过引入深度神经网络(DNN)提供习得特征表示这一重要发展。DNN解决了用高斯混合模型进行数据表示的低效问题,能够直接取代高斯混合模型。深度学习还能用于为传统HMM语音识别系统学习强大的判别性特征。该混合系统的优势是,能够直接使用语音识别研究人员几十年来研发的各种语音识别技术。相较于早期的一些工作,29,40DNN和HMM相结合大大减少了错误。在新系统中,DNN的语音类通常由捆绑HMM状态表示—这是一种直接继承了早期语音系统的技术。

使用马尔可夫模型表示语言知识存在争议。语言学家确信,自然语言无法用上下文无关语法表示,更不用说用有限状态文法表示。同样,人工智能专家更加怀疑马尔可夫过程这样简单的模型能否用来表示Newell报告提到的更高层次的知识来源。

然而,假设语言本身是马尔可夫过程和将语言建模成隐马尔可夫过程的概率函数有着根本区别。后一模型是一种近似方法,它并不对语言做出假设,而是为设计者选择在隐过程中要表示什么提供一种解决方案。马尔可夫过程的确切属性是,给定当前状态时,未来事件的概率独立于该过程中过往的其他额外信息。此属性意味着,如果有任何关于被观察过程历史的信息(如观察到的单词和子词单元),则设计者应该在隐过程中以不同的状态为该信息编码。事实证明,Newell层次结构的每一层都可以以合理的近似程度表示为一个隐马尔可夫过程的概率函数。

对于如今最先进的语言建模,大多数系统仍然使用统计N元语言模型及其变体,并用基本计数技术或EM类技术加以训练。经证明,这些模型非常强大且富有弹性。然而,N元是实际人类语言的高度简化模型。与深度学习大大提高声学建模质量相似,递归神经网络也明显改善了N元语言模型。值得一提的是,对于大多数真实的语音应用,比适配应用领域的大规模文本语料库更重要的了。

训练数据和计算资源

由于语音数据和文本数据增多,计算能力提高,语音识别研究人员得以为规模足够大的任务开发和评估复杂算法。用于语音训练、开发和评估的常用语音语料库对创建功能不断增强的复杂系统起到了关键作用。因为语音是高变异性信号且需要许多参数描述,所以对于建立足够好的模型使自动化系统达到熟练程度,大型语料库显得至关重要。多年来,这些语料库已由美国国家标准和技术研究院(NIST)、美国语言数据联盟(LDC)、欧洲语言资源协会(ELRA)和其他组织创造、注释并分发给全球业内人士。录音的特点已经从有限的约束语音素材发展到大量日益真实自发的语音。

摩尔定律预测,给定成本的计算量每12-18个月会翻一倍,内存价格也会下降一半。摩尔定律使得语音识别能够利用到性能大大提升的计算基础设施。云语音识别技术使得积累超大规模语音数据比1976年所能想象到的更加方便。谷歌和Bing都编制了整个网络的索引。网络搜索引擎每个月会收到数十亿次用户查询。如此庞大的查询点击数据使得为语音搜索应用程序创建更强大的语言模型成为可能。

信号和特征处理

每个声学特征矢量通常每10毫秒计算一次。每一帧都会有选取一个短暂的语音数据窗口。通常每个窗口选取25毫秒的语音,所以语音窗口在时间上是有重叠的。1976年,声学特征通常是测量每个时间窗口内各个频率的幅值,通常用快速傅里叶变换或者滤波器组来计算。幅值是频率的函数,叫做短暂语音时间窗口的「频谱」,发音时间内的此类频谱序列能够被可视化为声谱图。

过去的30年左右,尽管修改声谱图造成了原始语音信息的损失,但也大大提升了基于高斯混合模型的HMM系统的性能。深度学习技术正是以最大限度地减少这些信息损失为目标,并旨在从原始数据中搜索更强大的、由深度学习驱动的语音表示。由于深度学习的成功,语音识别研究人员重新开始使用更多基础语音特征(比如声谱图和滤波器组)进行深度学习,11这使得机器学习能够利用深度神经网络技术本身自动发现更多有用的表示方式。

词汇量

从1976年以来,大型语音识别系统的最大词汇量已经大幅增加。事实上,1990年代末实时自然语言听写系统的词汇量基本已经达到无限。也就是说,用户并不知道系统的词典中相对罕见的单词哪些有,哪些没有。系统尝试识别听写的每一个单词,并将所有未识别的单词算作错误,即使这个单词不在词典里。

这种观点迫使这些系统不停学习新单词,以便系统每次再碰到同样的单词不会继续犯错。学习特定用户的口述中重复出现的人名和地名尤其重要。从单个或少数示例中学习的统计学习技术取得了显著进步。技术人员使这个过程对交互用户显得尽可能无缝。然而,这个问题仍然是个挑战,因为从模型的角度看,小样本模型与大数据模型完全不同,为新单词建模仍然远远未达到无缝的程度。

说话者无关的自适应系统

尽管采用统计机器学习的概率模型为多种语音信号变异来源的建模和学习提供了一种方式,单个说话者、说话者相关模型和针对多样化人口的说话者无关模型之间仍然有明显的性能差距。Sphinx引入了大词汇量、说话者无关的连续语音识别。关键是使用来自大量说话者的更多语音数据训练基于HMM的系统。

适应性学习也被用于适应说话者差异和广泛的通道、噪音和领域的变化条件。有效的适应技术使我们能够进行快速的应用程序集成,并且也是成功进行语音识别商业部署的关键。

解码技术

从架构上看,知识表示的最重要发展是可搜索的统一图表示。它使得多种知识来源能够汇集到一个共同概率框架中。Reddy1976年的论文中总结的诸多系统已经演化出多种解码或搜索策略,比如堆栈解码(A星搜索)、时间同步定向搜索和加权有限状态传感器(WFST)解码器。这些实用的解码算法使得大规模的连续语音识别成为可能。

非组合法包括在ROVER12以及增加约束的多路系统等假设层次上结合的多语音流、多概率估计量,多识别系统。

口语理解

获得识别结果后,从识别结果中提取「意思」同样重要。1970年代,口语理解(SLU)主要依靠表示语义概念集的格语法。DRAPA资助的航空旅行信息系统(ATIS)研究计划是将格语法用于SLU的一个好例子。在这项任务中,用户可以随意语音查询航班信息。口语理解需要从给定的、基于框架的语义表示中提取出特定任务的参数,其中,框架可以是「出发时间」、「航班」等。这些格框架中的槽是涉及的领域特有的。从语音识别结果寻找属性值的过程必须稳健,能处理内在识别错误以及表示同一概念的多种不同表达方式。

人们使用了许多技术来填充训练数据中的应用领域的框架槽。与声学建模和语言建模类似,基于递归神经网络的深度学习也能够明显改进语言理解的槽填充。

六大主要难题

语音识别技术远不完美。事实上,技术难题比比皆是。根据过去40年的经验,我们现在探讨实现语音识别梦想必须应对的六个最困难领域。

数据太多好比无数据

现在,我们有一些非常令人兴奋的机会来收集大量数据,从而产生了「数据洪流」。很大程度由于的互联网功劳,现在可以轻易获得大量日常语音,反映以往无法获得的各种材料和环境。最近兴起的手机语音搜索提供了丰富的语音数据来源,由于对手机用户操作的记录,这些数据可视为部分「标记」了的。苹果Siri(Nuance提供支持)、谷歌和微软都已经通过其产品的语音系统积累了大量用户数据。

一些基于Web的新工具可以用来以可控的成本收集、标注并处理许多语言的海量语音。在网络上感兴趣的人士齐力协助下,可以非常有效、廉价地生成大量语言资源。对于为资源「稀缺」的语言创造显著的新功能,这尤其弥足珍贵。日益增加的数据量对于提高语音识别技术的最新水平既是机遇又是挑战,如图3所示,我们的微软同事LiDeng和EricHorvitz使用了许多发表的论文中的数据来证明这一重要论点。即便我们尽最大努力从分散在近10年的数据得出一幅结构严谨的图,图3中的数字依然并不精确。

在抽样人们经常经历的多种语音、环境和信道方面,我们才仅仅进行了肤浅的研究。事实上,我们目前提供给自动系统的资料,与我们人类用来学习语言的资料相比,只占其很小的比例。若要使我们的系统更加强大并理解语音的本质,我们需要更充分地利用语音并标注更多的语音资料。标签完善的语音语料库已经成为当前语音系统发展和进化的基石。但是,大多数的海量数据都没有标签或标注不善,而准确地标注它们成本不菲。

计算基础设施

GPU的使用是近年来一个显著的进步,它使中等规模的深层网络训练成为现实。GPU方法的一个已知局限是,当模型与GPU内存(通常小于6GB)不匹配时,训练速度提升较小。据最近报道,分布式优化方法可以大幅提高深度学习速度并可训练更大的模型。大规模分布式计算机集群已被用于训练规模适中的语音深度神经网络(DNN),相比GPU实现方式,其速度提高了10余倍。

几十年来,摩尔定律一直是计算系统的计算能力和存储能力提高的一个可靠指标。这对语音识别和理解系统产生了巨大的影响,包括允许使用越来越大的训练数据库和识别系统,并整合更精细的口语模型。鉴于采用分布式计算机系统训练大规模DNN的最新进展,这似乎证明,未来的许多研究方向和应用隐式依赖于计算能力的不断提高。如图3所示,随着训练数据不断增加,即使用大规模分布式计算集群,训练一个新型语音系统预计也需要数周或数月。

英特尔和其他人最近指出,微处理器的功率密度提高到了极点,再提高时钟频率将会使硅开始熔化。因此,行业发展目前专注于实现多核微处理器。半导体行业的新路线图反映了这一趋势,未来的加速将更多地来自并行计算而不是单个更快的计算元件。

在大多数情况下,语音系统的算法设计者都忽略了对并行计算的研究,部分原因是可扩展性的进步一直非常可靠。未来的研究方向和应用程序将需要多得多的计算资源用于创建模型,因此研究人员将需要在其设计中考虑大规模分布式并行计算。这将是现状的一个显著变化。特别是,对于解码等任务,人们已经开发了极其聪明的方案来提高单处理器的性能,这些任务将需要完全重新思考算法。显式利用并行计算的新搜索方法应该是一个重要的研究方向。

无监督学习已被成功用于训练一个比先前报道大30倍的深度网络。7通过监督微调获得标签,基于DNN的系统在ImageNet这项非常困难的视觉对象识别任务中取得了最高性能。对于语音识别,用云端的大量用户交互数据(如网络搜索引擎中的点击数据)开发高品质的无监督或半监督技术也有实际需要。

语音搜索的成功开发使得利用未标记或部分标记的数据训练基本声学和语言模型变得可行。我们可以自动(并「主动」)按效用最大化的方式选择部分未标记的部分数据进行人工标记。采用无监督学习的一个重要原因是,和他们的人类「基准」一样,系统将不得不接受「终身学习」,适应不断发展的词汇、通道、语言运用等等。有必要在所有层次上学习应对不断变化的环境、说话者、发音、方言、口音、词语、意义和话题。与人类一样,系统将进行自动模式发现、主动学习和适应。

我们必须解决新模型的学习以及将此类模型集成到现有系统中这两大问题。因此,学习的一个重要方面就是,要能辨别何时已学会一些知识以及如何运用学习的结果。从多个并发的模态学习也可能是必要的。例如,语音识别系统可能会在其输入语音中遇到新的专有名词,而且可能需要检查文本语境正确地确定名称的拼写。多模态无监督学习研究领域的成功将延长已部署系统的使用寿命,通过创建一个随着时间推移自动适应并改进的系统,直接提高我们无需大量昂贵的人工标记数据的情况下开发适用于新语言和新领域的语音系统的能力。

可移植性和泛化能力

学习的一个重要方面是泛化。当只有少量测试数据可用来调节语音识别器时,我们称之为泛化适应。适应能力和泛化能力使得快速语音识别应用的集成得以实现。如果可以获得训练数据,也有人尝试使用部分可观察的马尔可夫决策过程改进对话管理。对于许多新语言或新任务,往往难以获得这套语言资源。事实上,获得与该领域严密匹配的大量训练数据也许是使语音系统得到实际运用唯一最可靠的方法。

过去三十年中,语音界开发和完善了有助于促进语音技术稳步改进的实验方法。该行之有效的方法是开发共享语料库、软件工具和指南,它们可用于将实验设置之间的差异归结于算法,从而使量化根本改进变得更容易。通常情况下,这些语料都专注于特定任务。不幸的是,目前的语言模型不容易移植到不同的任务,因为它们缺乏语言学「头脑」,无法准确区别有意义的句子和无意义的句子。另外,它们也未考虑篇章结构,仅仅只涉及局部词语搭配。

这种策略与人类经验完全不同。我们一生中要从不受控制的环境、说话者和话题(也就是日常对话)中接触各种语音数据。尽管我们自己的个人训练数据如此多变,但我们能够创建非常善于应对语音变化的内部语音和语言模型。这种泛化能力是人类语音处理的一个关键方面,而现代语音系统目前尚未找到实现这种能力的办法。关于这一主题的研究活动发明的技术应该能在新环境下更有效地运行,并且能更好地从较少的数据进行泛化。另一个研究领域则可以探索如何将来自资源丰富的语言和/或领域的信息更好的推广到资源匮乏的语言和领域。

此处的难题是发明可迅速移植的口语技术。为了快速开发此类口语系统,我们需要新的范式来研究比特定于某种语言的音素更具语言普适性的语音和声学单元。有三个具体的研究问题必须解决:面向新目标语言的语音和声学单元的跨语种声学建模;针对新语言单词发音的跨语种词汇建模,以及跨语种语言建模。探索新语言和经过充分研究的语言之间的相关性将有助于提高快速移植和泛化能力。从少量标记话语建立初步系统,用其以无监督的方式标记更多的话语样本,迭代改进系统,直到其达到与如今高准确度系统相当的性能水平,在此过程中,自举技术是关键。

不确定性的处理

已经考验的统计DNN-HMM学习框架需要大量数据来处理不确定性。如何识别和处理多种变化因素是建立成功的语音识别系统的关键。尽管过去几十年中的进步令人印象深刻,但即便是遇到人类听者认为难度很低或毫无难度的细微偏差,现在的语音识别系统的性能仍会大幅下降。语音识别的鲁棒性仍然是一个重大的研究难题。我们希望不仅算法有所突破,而且在日益增多的无监督训练数据的使用方面有所突破。现在可以用以往不可行的方式获取这种数据。

语音信号中的一种普遍存在的变化因素是声学环境

这包括背景噪声、室内混响、语音的获取通道(例如蜂窝网络、蓝牙、固定电话和VoIP)、重叠语音、Lombard语音或超清晰语音。对于导致系统性能急剧下降的有害变异,采集语音的声学环境和传输语音信号的通信信道是重要原因。现有技术能够减少因加性噪声或线性失真导致的变异,并补偿缓慢变化的线性通道。然而,较复杂的通道失真,例如混响或快速变化的噪声,以及Lombard效应构成了重大挑战。尽管深度学习使得自动编码可以创造更强大的特征,但我们期望在学习有用的特征方面有更多的突破。这种学习可能模仿也可能并不模仿人类听觉系统。

人们深入研究的另一种常见语音变异是由于不同讲话人的特点造成的。众所周知,由于讲话者的生理机能、风格和口音(地方口音和非母语口音)等多种因素,不同讲话者的语音特征差异巨大。目前开发更健壮的语音识别系统所采用的主要方法是在训练中包括范围广泛的讲话者(和讲话风格),以便能够处理讲话人特征上的差异性。此外,目前的语音识别系统采用的发音词典建模的是某种语言的母语讲话者,并用不同母语讲话者的大量语音数据进行训练。人们已在探讨为带口音的语音建模,包括带口音的语音的显式建模,不大成功的母语声学模型适应,例如在苏格兰部署英式英语语音系统最初就遇到一些困难。发音变体也已收录进词典,但收效甚微。同样,检测语速变化方面也进展缓慢。

拥有苏格拉底的智慧

与大多数古希腊人一样,语音识别系统缺乏苏格拉底的智慧。这里的难题是搭建能可靠地检测其何时不认识(正确)某个词语的系统。发生此类错误事件的迹象是纯感觉信号(如无约束电话识别)分析与单词或短语级假设的不匹配。其中,前者由先验知识支配,后者则基于更高级别的知识,并通常以语言模型编码。这项研究的一个关键组成部分是基于感官证据与先验信念之间的差异开发新颖的置信度量和精确的不确定性模型。检测此类事件后自然是用音标记录这些事件(当系统确信其单词假设不可靠时)并制订纠错方案。

当前系统难以处理不经常出现的(因而往往信息最丰富)词项。对于包含感叹词、外来词或词汇表以外的词的语音以及只有相对较少的数据用来建立系统的词汇词典和发音词典的语言,这尤其成问题。这种情况的常见结果是高价值术语被过度自信地误识为其他常见单词或发音相似的单词。然而,此类口语事件对于口语术语检测和从语音中提取信息之类的任务非常重要。因此,准确检测它们至关重要。

结论

过去四十年,语音识别技术迎来了许多突破,为以前不可能完成的任务提供了解决方案。在这里,我们将总结研究和产品开发的不断进步所带来的启示。1976年,计算能力只够执行对有较少分支因素(疑难)的高度受限任务进行语音识别。如今,我们能够处理分支因素多得多且近乎无限的词汇。1976年,用于常规语音研究的最快的计算机是一台4MB内存的专用PDP-10。现在的系统能够获得一百万倍多的计算能力用于训练模型。数千颗处理器和云端几乎无限的总内存容量得到了日常应用。这些系统可以使用从开放性人群中的数百万人收集的以百万小时计的语音数据。这些系统的力量主要源自其收集、处理庞大数据集并从中学习的能力。

基本的学习和解码算法40年内并未发生重大变化。当然,人们也提出了许多算法改进,比如如何在深度学习任务中使用分布式算法。出人意料的是,尽管iPhone之类的智能手机可能有足够的计算能力和内存,但语音识别目前似乎是在远程服务器上完成,iPhone几百毫秒内就能获得结果。这样的机制却使得有潜力将错误率降低一半的说话人和环境自适应技术变得难以实施。

处理以前未知文字对大多数系统问题仍成问题。以基于Web的分析为基础收集海量词汇使得用户很有可能会使用其中一个已知单词。现在的网络搜索引擎商存储了5亿多实体条目,它们可大幅扩大词汇量,对于语音识别而言,词汇量通常小得多。用于网络搜索引擎的社交图谱也可用于大幅减少所需的搜索空间。最后一点是,混合语种的语音,其中来自两种或更多语言的短语混合使用,使得新单词的问题变得更加困难。17这种情况通常出现于许多英语夹杂母语的国家。

检错和纠错的相关问题导致了复杂的用户界面选择,在这方面,「DragonNaturallySpeaking「和后续系统已采用足够好的解决方案。我们认为,如MiPad演示16和类似苹果Siri的服务所示,多模态交互式隐喻将成为占主导地位的隐喻。对于系统此前未知的新单词,我们仍然缺少类似人类为弄清其含义而进行的对话。

另一个相关问题是识别高度易混淆的单词。此类系统需要使用更强大的辨别学习。在大多数依赖以大数据为基础的统计技术的系统中,也没有类似人类经常进行的动态稀疏数据学习。

未来40年,语音识别将通过图灵测试

这将真正使星际迷航般的移动设备愿景成为现实。我们预期语音识别技术可帮助缩小消除我们与机器之间的隔阂。正如RickRashid展示的《纽约时报》新闻a英汉语音翻译演示b一样,不管是地理位置障碍还是语言障碍,它都将是促进和增强人们之间自然对话的强大工具。

本文选自《COMMUNICATIONS OF THE ACM》,作者:Xuedong Huang, James Baker,  Raj Reddy,机器之心编译出品,编译:赵云峰。

入门语音识别计算机大数据
暂无评论
暂无评论~