基于Focal-KLD空洞卷积神经网络模型的单信道多说话人识别

本篇paper获得IEEE N.Ramaswamy Memorial Student Travel Grant奖项。在2017年,思必驰曾两次登上大型人工智能科普类节目《机智过人》,其中一期展示的是声纹识别技术。而这一篇论文,则是对该技术的详细剖析。

英文标题:Focal KL-Divergence based Dilated Convolutional Neural Networks for Co-channel Speaker Identification
作者:Shuai Wang, Yanmin Qian and Kai

摘要:

单通道多说话人识别目的在于识别出一段有语音重叠的所有说话人,这也是著名的「鸡尾酒问题」的一个子问题。我们针对基于神经网络的单通道多说话人识别框架进行了多种改进,1)采用空洞卷积学习到更鲁棒、区分性更好的深度特征。2) 提出了 Focal-KLD 使得训练过程中给与 hard samples 更多的权重。3)提出了一种后处理方法来将帧级别的预测汇总为句子级别的预测。实验结果表明我们提出的系统相对于基线系统取得了明显的性能提升,在两个说话人情况下达到 92.47% 的正确率,三个说话人时正确率为 55.83%。

研究框架

Baseline:关于单信道多说话人识别的文章并不多,使用了神经网络方法的更是很少。在 Deliang Wang 的工作中,通过将这个问题看成一个多标签分类问题,使用 DNN 作为分类器,取得了优于传统方法如 GMM 的结果。这个框架如下图所示,通过最小化模型预测概率分布跟 true label 的 kl-divergence,DNN 学习到 speaker-discriminative 的 feature 和 分类器。在决策过程中,对一个句子的所有帧的预测概率取平均得到句子级别的概率预测,top k 结果即为最终的预测说话人。
Proposed System:我们主要做出了三点改进。

1.Focal KL-divergence

经典的 KL-Divergence 定义如下,计算两个分布之间的的距离。

 我们希望对于 hard samples 进行更深的优化,对于一些 easy samples 相对的降低其对最终 loss 的贡献,我们提出了针对这个任务的 focal KL-Divergence,定义如下:
2.Dilated Convolutional Neural Network

语音和图像领域的很多研究都表明,CNN 相对于普通的 DNN 更善于提取特征表示。为了覆盖到更大的 context,增大 convolution 的 receptive field,我们提出用 Dilated CNN(空洞卷积神经网络)来代替原方法中的 DNN。
3.Post Filtering

在原始的工作中,测试阶段直接对所有帧的概率分布取平均得到 utterance 级别的预测,

我们认为不应该对所有的帧都同等对待,需要筛选出那些比较重要的帧(更可能来自于同一个说话人)。定义新的 aggregation 方法如下,其中 w 代表当前帧的最大概率

研究实验:

我们的实验在基于 RSR 数据库的人工混合的单信道多说话人数据上展开,性能如下表:

研究结论:

1.CNN 相对于 DNN 的性能优势比较 consistent
2.Focal Loss,Post Filtering 都能得到进一步的性能提升
3.我们最终的系统能在两个说话人情况下达到 92.47% 的正确率,三个说话人时正确率为 55.83%。

理论
推荐文章
可视化语音分析:深度对比Wavenet、t-SNE和PCA等算法
机器之心
基于CNN的阅读理解式问答模型:DGCNN
PaperWeekly
DeepMind语音生成模型WaveNet的TensorFlow实现
吴攀
暂无评论
暂无评论~
返回顶部