深度复合U-Net做语音增强
大部分用于语音增强的深度学习模型主要集中在对声谱等级的评估上,同时再使用来自噪声语音的相位进行重建。这主要是由于难于评估干净语音的相位。为了提升语音增强的表现,论文《Phase-aware Speech Enhancement with Deep Complex U-Net》的作者们用三种方法解决相位估计问题。首先,作者们提出了深度复合U-Net网络,也就是融合了精调复值构建模块来处理复值声谱的高级U-Net网络。其次,作者提出极坐标复值掩码方法。最后,作者定义了新的损失函数。在Voice Bank语料库和DEMAND数据库上的混合评估结果显示,作者们的模型在所有标准上达到了SOTA表现。