2020/04/22 10:34

语音识别重大突破！快商通&新加坡国立大学联合论文入选ACL 2020

论文介绍了一种通过机器学习算法建立语言模型的方法，主要用于解决中英混合文本数据缺失问题，是语音识别领域对多语种切换语音识别的首次突破。

近日，快商通Kriston AI Lab和新加坡国立大学联合发表的论文《Modeling Code-Switch Languages Using Bilingual Parallel Corpus（使用平行语料为中英文语码转换建模）》被第58届计算语言学年会 ACL 2020 录用，论文介绍了一种通过机器学习算法建立语言模型的方法，主要用于解决中英混合文本数据缺失问题，是语音识别领域对多语种切换语音识别的首次突破。

ACL是计算语言学和自然语言处理领域最重要的顶级会议，被CCF与清华共同列为顶级A类会议。今年，ACL共接收到超过3000篇投稿，虽未公布录取率，但依照历史平均录取率23.7%来看，被收录的论文代表了人工智能领域的世界领先水平。

多语种切换语音识别现状：需求火热，技术难突破

随着全球化的演进，多语言通信成为越来越普遍的现象。例如在新加坡等东南亚地区，英语作为大部分人的第一外语，会被自然而然地穿插在以中文为主的日常交流中。相对应地，对多语种切换语音识别也成为当下火热的需求。

然而，多语种切换语音识别一直是语音领域面临的重要挑战之一，最主要的原因，是因为多语种切换数据的缺失。

语音识别系统训练，需要语音和文本两方面的数据。通常，多语种切换的表达多在口语交流中出现，因此，文本形式的多语种切换表达资源匮乏。

使用平行语料为中英文语码转换建模

快商通Kriston AI Lab瞄准海外痛点需求，提出了一种基于注意力机制的双语语言建模算法（BLAM），该算法综合考虑两种语言的词序列上下文关系以及两种语言间的语法差异。具体地，文章定义了两种损失函数，分别用于对单一语言的语法进行约束以及对多语种切换表达的语法进行约束。然后将两种约束用于训练基于注意力机制的深度神经网络模型。

这种方法，是现阶段语音识别领域对多语种切换的首次突破，其算法具有以下优点：

1、两种语言均可以作为主语语言，语码转换时两种语言的比例不影响语音识别的性能；

2、语言模型混淆度（PPL）相对目前最好的多语种切换语言模型建模算法能降低20%以上，语音识别词错率相对目前最好的多语种切换语音识别算法能降低25%以上；

3、该算法可用于多语种切换的规范化，即，将两个语种混杂的文本规范化为统一的语种表达；

该算法可进一步扩展，用于句子生成以及机器翻译。

快商通

人工智能独角兽企业快商通，掌握自然语言处理、知识图谱、声纹识别、语音识别等技术的自主原创能力，通过将AI、BI引擎技术应用于客服云、销售云、营销云、安全云等产品中，赋能用户实现产业营销智能数字化升级。

理论人工智能ACL2020语音识别

相关技术

深度学习机器学习自然语言生成

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

规范化技术

规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到1.0 或0.0 到1.0。通过将属性数据按比例缩放，使之落入一个小的特定区间，如0.0到1.0，对属性规范化。对于距离度量分类算法，如涉及神经网络或诸如最临近分类和聚类的分类算法，规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘，对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法，规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比，权重过大。有许多数据规范化的方法，包括最小-最大规范化、z-score规范化和按小数定标规范化。

来源：Jiawei Han;Micheline Kamber著数据挖掘概念与技术机械工业出版社

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

深度神经网络技术

深度神经网络（DNN）是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

来源：机器之心 Techopedia

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用，如语音识别，机器翻译，词性标注，句法分析和资讯检索。由于字词与句子都是任意组合的长度，因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题)，也使得在语料库中估算字串的机率变得很困难，这也是要使用近似的平滑n元语法(N-gram)模型之原因。

来源：维基百科

语言学技术

每种人类语言都是知识和能力的复合体，语言的使用者能够相互交流，表达想法，假设，情感，欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究：如何构建这样的知识体系，如何获取，如何在消息的制作和理解中使用它，它是如何随时间变化的？语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性？语言如何不同，系统的差异程度如何，我们能否在差异中找到模式？孩子如何在短时间内获得如此完整的语言知识？语言随时间变化的方式有哪些，语言变化的局限性是什么？当我们产生和理解语言时，认知过程的本质是什么？语言学研究的就是这些最本质的问题。

来源：Linguistics