思必驰xiaochi获2020 AESR“口音种类识别“冠军和“口音英语语音识别”亚军

2020 AESR,即“INTERSPEECH 2020口音英语语音识别挑战赛(Interspeech2020 Accented English Speech Recognition)”,向参赛者开放八种口音英文数据,设置了“Track1-口音种类识别”和“Track2-口音英语语音识别”两个赛道。由思必驰组建的“xiaochi”队伍表现优异,分别获得“口音种类识别”第一名(全球共30个队伍参赛),和“口音英语语音识别”第二名(全球42个队伍参赛)。

在“Track1-口音种类识别”技术挑战赛中,参赛队伍需要使用官方提供的各种口音英文的训练数据,训练语种分类模型。xiaochi队伍的准确率高出第二名11个百分点,最终摘得冠军。

数据策略上,xiaochi对8种口音训练音频进行变语速数据增强,利用kaldi工具模拟噪声和远场,使用8种口音训练数据+librispeech数据训练TTS合成器,并生成8种口音训练音频,最后对测试音频采用sox变语速后与原始音频拼接。模型训练时,采用了多机多卡的并行训练策略,有效降低了模型迭代和实验速度。最终我们采用深层的TDNN模型,结合AAM loss等进行优化,来训练8种口音的8分类模型。

经过多个不同策略组合的实验测试,最终发现,“利用PPG等特征,结合基于tts的数据生成,多嵌入多层联合优化”等方法,能够最高效快速识别不同口音种类。这也为未来业界进行多语种混合识别提供了很好的参考策略。

思必驰AISpeech
思必驰AISpeech

专注人性化的智能语音交互技术。

理论思必驰
1
相关数据
思必驰机构

思必驰成立于2007年英国剑桥,2008年回国落户江苏苏州,目前员工近800人,在北京、深圳、上海成立了分公司。思必驰是国内领先的对话式AI平台型公司,提供端到端的口语交互系统,拥有全链路的智能语音语言技术,是国内极少数拥有原始创新能力和基础创新团队支撑的AI公司,目前各项知识产权800余项,其中专利514项,保证了思必驰在语音技术在前沿领域的前瞻性发展。思必驰自主研发了新一代的人机交互平台(DUI),和人工智能芯片(TH1520)。

http://www.aispeech.com/
准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推荐文章
暂无评论
暂无评论~