云从科技语音组提出了一种基于 BART 预训练模型的语义纠错技术方案,它不仅可以对 ASR 数据中常见的拼写错误进行纠正,还可以对一些常识错误、语法错误,甚至一些需要推理的错误进行纠正。
使用弱声学模型生成纠错训练数据,这里采用 10% 的语音数据单独训练一个小的声学模型,用于生成训练数据;
对 MFCC 特征增加扰动,将 MFCC 特征随机乘上一个 0.8 到 1.2 之间的系数;
将带噪声的特征输入到弱声学模型,取 beam search 前 20 条结果,并根据错字率阈值筛选样本。最后,我们将筛选后的解码结果和他们对应的参考文本配对,作为纠错模型训练数据。通过对全量音频数据解码,将阈值设置在 0.3,我们获得了约 3 千万纠错样本对。
