Recurrent AI作者

语音识别新范式:完全的“端到端”模型,优势在哪里?

“自然科学的发展除了按常规科学一点一滴地积累之外,还必然要出现‘科学革命’。”托马斯·库恩在其发表于 1962 年的经典著作《科学革命的结构》中提出的“范式转换”一词,如今已成为大家耳熟能详的技术用语。

大的“范式转换”存在于基础科学领域,小的“范式转化”也存在于几乎每个细分的技术领域。

语音识别新范式

自然语言处理的子领域“语音识别”为例,从 2012 年引入深度学习技术开始,语音识别的研究热点经历了三个阶段:

  • 2011年前后,基于 DNN+HMM(深度神经网络+隐马尔科夫模型)的语音识别
  • 2014年前后,基于 LSTM+CTC(长短时记忆网络+连接时序分类)的不完全端到端语音识别
  • 2017年前后,基于 Transformer(自注意力机制)的完全端到端语音识别

如果说 2011 年深度学习的引入,是语音识别领域上一次范式转换的起点,那么从 2017 年开始,基于注意力机制和 Transformer 新型神经网络结构的语音识别研究,无疑标志着语音识别的新范式正在形成。

传统的语音识别主要框架包括:声学模型和语言模型。2011 年前后引入深度神经网络(DNN),主要目标是改进传统语音识别框架中的声学模型算法。2014年前后引入LSTM+CTC的方案,理论上实现了端到端,但因为效果不好,实际使用中仍然会加上语言模型

而 2017 年之后基于自注意力机制的完全端到端模型,才真正突破了“传统框架”的限制,去除所有中间步骤和独立子任务,充分利用深层神经网络和并行计算的优势,取得最优结果。在 2019 年秋天的语音领域顶会  Interspeech 上,基于自注意力机制和Transformer神经网络结构的算法,几乎出现在了所有语音识别相关的研究中。

基于Transformer的完全端到端模型主要优势有三个:

  • 第一,Transformer采用的自注意力机制是一种通过其上下文来理解当前词的创新方法,语义特征的提取能力更强。在实际应用中,这个特性意味着对于句子中的同音字或词,新的算法能根据它周围的词和前后的句子来判断究竟应该是哪个(比如洗澡和洗枣),从而得到更准确的结果。
  • 第二,解决了传统的语音识别方案中各部分任务独立,无法联合优化的问题。单一神经网络的框架变得更简单,随着模型层数更深,训练数据越大,准确率越高。因此企业可以使用更大量的专有数据集来训练模型,得到相应场景下更准确的识别结果。
  • 第三,新的神经网络结构可以更好地利用和适应新的硬件(比如GPU)并行计算能力,运算速度更快。这意味着转写同样时长的语音,基于新网络结构的算法模型可以在更短的时间内完成,也更能满足实时转写的需求。

Transformer-XL 进一步释放注意力模型的优势

Transformer-XL 神经网络结构是由循环智能联合创始人杨植麟博士(共同第一作者),与Google AI、卡内基梅隆大学共同推出。在全部 5 个单词和字符级语言建模标准数据集取得 state of the art 结果:WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。

从名字也可以看出来,Transformer-XL 通过引入循环机制和相对位置编码,主要解决了超长输入的问题。Transformer-XL对长序列建模能力更强,而语音识别的一个重要基础就是对长序列进行建模。序列越长可以考虑的上下文音频信息越丰富,识别越准确。也就是说,即使超长的句子,也能得出更加准确的结果。

在面向企业的商用场景下,语音识别系统的准确率,主要取决于算法模型的先进程度以及特定领域训练数据的规模。2019 年,在循环智能联合创始人、CTO张宇韬博士带领的工程团队努力下,循环智能已经将最前沿的 Transformer-XL 技术成果落地到实际应用中。经过一年多的积累,循环智能目前在金融、教育和互联网服务领域经过了几十万小时的数据训练。

在一家市值百亿美金互联网服务公司的实际测试中,循环智能针对电话录音的自动语音识别(ASR)效果超过国内公认的语音巨头和互联网巨头。

从学术前沿到商业落地

虽然学术的前沿、顶尖研究人员的重心已经转到基于 Transformer 的研究,那些曾经辉煌的神经网络结构,很难再取得技术突破,也不符合技术发展的方向。但是,很多从事自动语音识别(ASR)业务的公司,依然不得不固守“传统”的神经网络结构。

原因有二。首先,通常将前沿学术成果落地到商业场景,本身就需要很长时间;其次对于普通公司而言,采用前沿学术成果意味着需要从一项熟悉的旧技术组合切换到另一套,甚至意味着人员的更新迭代,需要的时间更长。

工程能力世界顶级的 Google,从学术前沿的成果到大规模商业落地,大概花了两年多的时间,终于成功将基于Transformer的算法引入其核心搜索产品中:

  • 2017 年 6 月,“Attention is all you need” 论文发表 ,Google 在这篇论文中介绍了 Transformer,一种基于自注意力机制(self-attention mechanism)的全新神经网络结构。短短两年多时间,该论文在 Google 学术中的引用量达 5956 次,毫无疑问是近几年自然语言理解领域影响力最大的论文之一。
  • 2018 年 6 月,Google 发布了基于 Transformer 的 BERT 模型,被称为近几年 NLP 领域最具里程碑意义的进展。
  • 2019 年 10 月,Google 在官方博客中宣布,已经将这项技术应用于搜索中,增强了对用户搜索意图的理解。

新算法模型带来的效果提升非常显著。过去一直以来,当我们向 Google 的搜索框中输入一个完整句子的时候,Google 的做法是用句子中的关键词去匹配相应的搜索结果,并不关心句子的实际含义。正因为如此,早年的“搜索高手”都知道一些搜索技巧,比如搜索引擎会自动忽略句子或短语中的“的”、“是”等虚词,所以他们通常不会输入一个自然句子,而是自己拆成关键词组合,这样对机器更加友好,也更有可能得到更好的答案。而现在,Google 搜索引擎对于长句子的理解更加深入,更懂用户想搜索什么,因此就能匹配更好的结果。

Google 搜索“可以帮人取药吗”的结果对比,新算法更准确地理解了用户的搜索意图,是想问能否帮人取处方药。

对于循环智能而言,商业落地的规模要比 Google 全球搜索的规模小很多,我们在三个月之内完成了基于原创 Transformer-XL 算法模型的完全“端到端”语音识别引擎部署,针对销售、客服电话录音场景的语音识别准确率同样得到大幅提升。

依靠在金融、教育和互联网服务等领域不断积累行业训练数据,循环智能持续优化算法模型的准确率,赢得了很多大家耳熟能详的上市公司和标杆企业的青睐,包括众安保险、玖富、VIPKID、新东方在线、58同城、猎聘等。 

循环智能(Recurrent AI)
循环智能(Recurrent AI)

循环智能是一家企业服务公司,通过机器学习的方法,分析企业与客户之间的语音沟通记录、文本沟通。公司的主产品是基于对话数据的 AI 销售中台。

https://www.rcrai.com/
产业Transformer-XL循环智能语音识别
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

Transformer-XL技术

Transformer-XL 预训练模型是对 Transformer 及语言建模的修正,这项前沿研究是2019年1月份公布。一般而言,Transformer-XL 学习到的长期依赖性比标准 Transformer 学到的长 450%,无论在长序列还是短序列中都得到了更好的结果,而且在评估时比标准 Transformer 快 1800 多倍。

推荐文章
暂无评论
暂无评论~