Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

NIST声纹识别评测成绩公布,清微智能&清华解决方案技术解读

近日,NIST声纹识别评测(SRE19)和多媒体评测(VAST19)大赛正式公布成绩,清微智能,清华大学等组成的团队,获得这两项赛事全球前十,亚洲地区第一的好成绩。

NIST SRE和VAST分别是是由美国国家标准技术署主办的国际上最权威亦是规模最大的声纹识别技术评测和多媒体评测,为全球的参赛机构提供一个公平的统一测试平台——包括效果评测数据集和训练集。

本文总结了该团队此次声纹识别竞赛中的关键技术点。

关键技术一:FTDNN & EFTDNN

在这次评测中,团队基于目前State of the art的框架X-vector, 在主流的TDNN上做了两个改进,分别是FTDNN和EFTDNN。 FTDNN把TDNN 1024*1024的层拆成两层:1024*256,256*1024,网络从随机初始化开始训练,在参数更新的过程中,后一层每4个step半正交化一次。例如,传统的节点数为1024的TDNN层,被分解为两个卷积核为2*1,节点数为256的卷积层,其中第二个卷积层在训练的过程中是限制半正交的。这样的FTDNN结构虽然层数加深,但是参数量反而变小,这样使得在同等参数量的情况下,FTDNN的性能更好。

此外,通过使用更大的数据集建立更深、更大的深度声纹模型EFTDNN(extended factorized TDNN),在单系统上获得了不错的性能。采用“factorizing the convolution”和“3-stage splicing”的分解方式,例如:传统的节点数为1024的TDNN层,被分解为两个卷积核为2*1,节点数为256的卷积层,和一个卷积核为2*1,节点数为1024的卷积层,其中前两个卷积层在训练的过程中是限制半正交的。这样的FTDNN结构虽然层数加深,但是参数量相差不大。同时,引入AM-Softmax (additional margin softmax) 让深度模型获得更稳定的和更快的收敛,进一步提升了声纹识别的性能。

关键技术二:多任务学习机制融合语音文本上下文信息

团队使用多任务学习机制,将语音信息导给给基于X矢量架构进行声纹嵌入提取。将声纹识别和语音识别任务联合学习,借助音素信息和语音文本上下文信息对声纹更有效的建模。其中,语音帧级别的语音识别模型和语音段级别的声纹识别模型共享了7层TDNN的参数,在训练的过程中,输入数据对应的声纹标签用于更新声纹模型,对应的文本标签用于更新语音识别模型。由于同时含有声纹标签和文本标签的数据集很有限,为了产生其他声纹语料的文本标签,引入了一个额外的GMM-HMM模型用来对齐语音帧和文本标签。将语音向量与X-vector网络共同优化,并提供辅助信息以适应声纹特征,可以同时在帧和片段级别上得到有效结果。共享层提取信息特征,使网络更稳健,避免出现过拟合的情况。

关键技术三:融合语音适应与多任务学习机制

在语音适应方法中,语音内容被认为会对声纹验证任务产生负面影响。相反,混合多任务学习利用有用的语音信息来改善模型的概括性。于是,在多任务学习框架的基础上又做了改进,生成了C-vector,从预训练好的声学模型中提取音素向量,拼接在Multi-task声纹识别模型的池化层前。它融合了Multi-task和phonetic adaptation,进一步挖掘语音文本信息对声纹识别任务的有用信息。在C-vector架构中,使用了两个独立的语音分支。为什么要采用这种形式?因为这两个子网是通过不同的目标功能进行优化的,但是还需要限制模型大小。团队注意到,在多任务学习中,区分语音的网络也提供逐帧的语音信息。因此简化的模型可以删除预训练的声学模型,然后将BN层合并到语音区分网络中,并从该层中提取语音矢量。

关键技术四:启发式后端对X-vector进行信道补偿和分类

在X-vector特征中,即包括了声纹信息又包括了信道信息,因为团队奖重点放在了声纹信息上,所以在X-Vector中存在信道信息的干扰,这会降低系统的性能表现。于是,团队还需要通过信道补偿算法来减少这种影响。除了数据级和模型级的改进,针对域不匹配的问题,后端团队采用启发式算法,遍历不同的后端策略,线性鉴别分析(Linear Discriminant Analysis,LDA)和概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA),LP-LDA,以及MotPLDA,尽量减少训练、测试数据不匹配带来的影响。

SRE是美国国家标准技术署(NIST)主办的全球最权威的语音识别领域竞赛,很多国内外的大型企业、团队会参与其中。据悉,今年获得全球第一的是来自美国的一家公司,因为其采集了更多in-domain数据,未来该赛事也许将会改为close-data赛制,更加体现技术的重要性。

入门声纹识别清微智能清华大学
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

线性判别分析技术

线性判别分析 是对费舍尔的线性鉴别方法的归纳,这种方法使用统计学,模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,或者,更常见的是,为后续的分类做降维处理。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

多任务学习技术

推荐文章
暂无评论
暂无评论~