数据堂开源1505小时中文普通话语音数据集

尽管语音技术的发展具有一定的历史,深度学习在语音识别等研究领域的成果也极大地促进了语音技术的发展,但数据依然是目前语音技术存在局限性的原因之一,5月20日,数据堂推出AI数据开源计划,面向高校和学术机构等非商业组织群体,首次开源的数据集为:1505小时中文普通话语音数据集。该数据集是目前业内数据量最大、句准确率最高的中文普通话开源数据集。

数据介绍

数据堂1505小时中文普通话语音数据集

数据有效时长达1505小时,。录音内容超过3万条口语化句子,由6408名来自中国不同地区的录音人参与录制。经过专业语音校对及人员转写标注,通过严格质量检验,句准确率达98%以上,是行业内句准确率的最高标准。

效果评测

通过运行GMM-HMM混合模型和DNN-HMM混合模型,基于数据堂开源数据集【1505小时中文普通话语音数据集】的语音识别基准实验完美完成,其识别准确率如下所示:

aidatatang_1505zh(完整的1505小时中文普通话语音数据集)

GMM-HMM

CHAIN

CER

SER

CER

SER

7.35%

35.98%

3.14%

23.05%

Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)

GMM-HMM

TDNN

CHAIN

CER

SER

CER

SER

CER

SER

12.22%

43.11%

7.14%

31.19%

5.59%

26.06%

注:

*CER(Character Error Rate)指字识别错误率。

*SER(Sentence Error Rate)指句识别错误率。

*GMM-HMM指混合高斯模型-隐马尔科夫模型。

*TDNN(Time-delay Neural Networks)指时延神经网络模型。

*CHAIN(Chain model)是指链式模型。

据此基准实验的识别效果显示,由数据堂发布的包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。期待有兴趣的研究人员下载、使用【1505小时中文普通话语音数据集】。

OpenSLR & Kaldi

基于1505小时中文普通话语音数据集,数据堂精选了200小时中文普通话语音数据在OpenSLR发布,并在Kaldi平台提供了训练代码,对应的训练方法也在github平台发布。

数据获取方式:https://www.datatang.com/webfront/opensource.html

数据堂将持续提供面向学术研究领域开源不同领域、不同应用场景的AI数据集,以帮助其攻克数据难关,充分发挥专业能力,实现技术进步,促进社会发展。欢迎加入数据堂开源计划,与我们一起共建智能时代。

产业语音数据集
3
暂无评论
暂无评论~