腾讯云小微&腾讯云智能钛联合团队获Interspeech 2020口音英语语音识别技术挑战赛冠军

近日,语音研究领域顶级会议Interspeech2020召开,在本次大会的口音英语语音识别挑战赛上,腾讯云小微&腾讯云智能钛联合团队在口音英语语音识别赛道中以大幅领先的成绩获得冠军。

Interspeech是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一。本次大会上提出,在全球范围内,标准英文ASR系统已经具备较高的识别正确率,但口音英语识别仍然是具有挑战性的课题,也是技术应用中亟待克服的最大挑战。为此,大会特别设置了口音英语语音识别挑战赛 ,正是为了促进行业技术交流,展示最新技术突破。

在本次口音英语语音识别挑战赛中,向参赛者开放了来自不同国家的共八种口音英文数据,覆盖了各种发音特点、口音轻重等典型难点。腾讯云小微&腾讯云智能钛联合团队的技术方案,以识别错误率最低且优于第二名10%的好成绩获得赛道第一。

采用探索性语音识别方案,腾讯联合团队展示技术研究实力

口音语音识别难点主要源于口音本身的不一致性、语速与音素发音的多变性难以建模等问题。另外,带有口音标注的语音数据的短缺也严重限制了相关研究的开展。作为在业内颇具代表性的AI语音技术团队,腾讯云小微&腾讯云智能钛联合团队在此次比赛中,突破性的选择了基于Wav2Vector无监督预训练+CTC Fine-tuning的Wav2Vec方案。该方案的原型是Facebook公司在今年首次提出的。在本次比赛前,几乎没有其他关于Wav2Vector的成功应用。因此,此次比赛是腾讯云小微团队在语音识别方案上的全新探索。

在这个方案中,腾讯团队首先使用Librispeech无监督预训练的Wav2Vector模型进行模型初始化,之后在预训练模型上添加一层输出层,采用英文字母作为建模单元,并使用CTC损失函数进行训练。由于模型采用的是字母建模,识别结果随机性较大,容易引入过多错误。因此,团队引入了语言模型进行约束,大幅提高了识别性能。经实验发现,解码时引入N元文法(N-Gram)语言模型,可以下降30%的识别错误率。同时,进一步采用基于Transformer的语言模型对解码的候选结果进行重打分,错误率可以下降7%。

大规模分布式训练加速,腾讯云智能钛为AI研究与应用提供极致的平台支撑

此次比赛由云小微团队与智能钛团队合力完成,是智能钛平台继2020.8.21与腾讯机智团队一道打破128卡训练ImageNet的业界新记录后,在大规模分布式训练加速场景上的又一个成功案例。智能钛平台整合了腾讯内部各业务团队的丰富经验,针对大规模分布式训练加速场景,在单机性能、多机扩展、AutoML等三个方面进行了深度优化,可以有效地支撑各AI团队的研究与应用。具体如下:

极致的单机性能: 智能钛团队协同内部的开源团队,推出了深度定制版TensorFlow(TI-TensorFlow),在高维动态稀疏特征支持、编译优化、自动混合精度训练等特性上对社区版TensorFlow进行了深度优化,大大提升了模型单机性能。

线性多机扩展: 智能钛TI-Horovod在开源框架的基础上,结合腾讯云的软硬件环境进行了深度优化。通过自研的自适应梯度融合、2D AllReduce和多流通信等技术,实现了近千卡的线性扩展加速。通过首创的层级Topk技术,突破了弱网环境下的带宽瓶颈。

高效AutoML:针对深度学习训练规模大、超参数范围广和人工调参效率低的问题,智能钛TI-AutoML内置了腾讯自研的高效自动化搜索技术,充分利用腾讯云的海量算力,让算法工程师从繁琐的手工调参中解放出来。

语音技术持续突破,加速各行业落地应用

在AI语音助手的实际应用中,如何提高口音识别成功率,是业内一直在关注和探索的问题。在中英文翻译方面,腾讯云小微输出的技术方案,旨在提高英语语音识别准确率,进而提升翻译效率和准确性。已经在腾讯翻译君、腾讯同传等各行业方案中广泛应用。

除了中英文翻译领域,腾讯云小微AI助手,已经在智能网联汽车、智慧文旅、智慧教育、智能家居等多行业领域落地,服务广泛的用户群体。口音语音识别的突破,对于中文语音助手的技术提升也有很大的价值。比如在车载语音助手的应用上,一款汽车产品需要满足全国范围不同区域、不同口音用户的交互需求。比如车载语音助手上,由于用户来自全国不同区域,用户的口音将直接影响识别的准确性,特别是对于口音较重的用户。本次挑战赛中,腾讯云小微参赛团队探索端到的AI训练方法,为日后的方案应用落地和迭代提供了更有价值的技术助力,将推动AI语音助手方案为用户带来更好的服务体验。

产业语音识别腾讯云
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
口音语音识别技术

指带口音的语音识别任务。

推荐文章
暂无评论
暂无评论~