语音顶会ICASSP 2018落幕，思必驰-上交大实验室14篇论文入选

为期 5 天 ICASSP 2018，已于当地时间 4 月 20 日在加拿大卡尔加里（Calgary）正式落下帷幕。ICASSP 全称 International Conference on Acoustics, Speech and Signal Processing（国际声学、语音与信号处理会议），是由 IEEE 主办的全世界最大的，也是最全面的信号处理及其应用方面的顶级学术会议。今年 ICASSP 的大会主题是「Signal Processing and Artificial Intelligence: Challenges and Opportunities」，共收到论文投稿 2830 篇，最终接受论文 1406 篇。其中，思必驰-上海交大智能人机交互联合实验室最终发表论文 14 篇，创国内之最。

14 篇论文内容简单概述如下： 1. 《抗噪鲁棒语音识别在 Aurora4 基准上的机器与人类对比》

Noise Robust Speech Recognition on Aurora4 by Humans and Machines. By Yanmin Qian, Tian Tan, Hu Hu and Qi Liu.

噪声环境下的语音识别一直是一个巨大挑战。在我们实验室之前开发的极深卷积神经网络 VDCNN 基础上，通过引入残差学习得到 VDCRN 模型以进一步提升模型鲁棒性，同时在 VDCRN 模型上开发聚类自适应训练方法来减少模型在噪声环境下的训练和测试间失配。此外，还使用基于未来信息预测向量的新型 LSTM-RNN LM 来改善系统性能。最终所开发的抗噪语音识别系统，在噪声标准数据集 Aurora4 上达到了 3.09% 的词错误率，也是目前在此任务上报道的最好结果。经过分析对比，这个错误率已经非常接近真实人类在这个任务上的性能，在抗噪鲁棒语音识别研究上具有里程碑意义。

2. 基于 Focal-KLD 空洞卷积神经网络模型的单信道多说话人识别

Focal KL-Divergence based Dilated Convolutional Neural Networks for Co-Channel Speaker Identification. By Shuai Wang, Yanmin Qian and Kai Yu.

本篇 paper 获得 IEEE N.Ramaswamy Memorial Travel Grant 奖项，今年仅 2 篇论文获得该奖项。在 2017 年 9 月，思必驰曾两次登上大型人工智能科普类节目《机智过人》，其中一期展示的是声纹识别技术，详情戳这里，而这一片论文，则是对该技术的详细剖析。

单通道多说话人识别目的在于识别出一段有语音重叠的所有说话人，这也是著名的「鸡尾酒问题」的一个子问题。我们针对基于神经网络的单通道多说话人识别框架进行了多种改进，1）采用空洞卷积学习到更鲁棒、区分性更好的深度特征。2) 提出了 Focal-KLD 使得训练过程中给与 hard samples 更多的权重。3）提出了一种后处理方法来将帧级别的预测汇总为句子级别的预测。实验结果表明我们提出的系统相对于基线系统取得了明显的性能提升，在两个说话人情况下达到 92.47% 的正确率，三个说话人时正确率为 55.83%。

3. 用于自适应波束成形的结合神经网络与聚类方法的鲁棒隐蔽值估计

Robust Mask Estimation by Integrating Neural Network-based and Clustering-based Approaches for Adaptive Acoustic Beamforming. By Ying Zhou, Yanmin Qian.

基于隐蔽值（mask-based）的波束形成（beamforming）方法现在在多通道噪声鲁棒自动语音识别研究中受到了广泛的关注。在已有的 mask 估计模型中，基于神经网络 mask 估计方法有较好的性能，但是这种方法由于需要仿真的数据进行训练，因此在真实应用场景下存在着训练与测试不匹配的问题。本文针对这个问题，提出了一个新的非监督框架，利用复数混合高斯模型（CGMM，Complex Gaussian mixture model），估计真实无标签数据的软标签，使得真实数据可以用于 mask 神经网络的训练；除此以外，利用复数混合高斯模型，本文将说话人自适应技术从后端的声学模型建模引入到基于 mask 估计的波束形成技术，实现了一个说话人相关的波束形成技术。我们提出的方法在 CHIME-4 数据集上进行了验证，实验结果可以发现，在真实带噪的测试条件下，语音识别性能有明显提升，这种基于非监督方法的神经网络 mask 波束形成技术可以显著减小训练与测试的不匹配问题。

4. 用对抗多任务学习的口语语义理解半监督训练方法

Semi-Supervised Training Using Adversarial Multi-Task Learning For Spoken Language Understanding. By Ouyu Lan, Su Zhu, Kai Yu.

口语语义理解（Spoken Language Understanding, SLU）通常需要在收集的数据集上进行人工语义标注。为了更好地将无标注数据用于 SLU 任务，我们提出了一种针对 SLU 半监督训练的对抗对任务学习方法，把一个双向语言模型和语义标注模型结合在一起，这就减轻了对标注数据的依赖性。作为第二目标，双向语言模型被用于从大量未标注数据中学习广泛的无监督知识，从而提高语义标注模型在测试数据上的性能。我们为两个任务构建了一个共享空间，并为每个任务分别构建了独立私有空间。此外，对抗任务判别器也被用于获取更多任务无关的共享信息。在实验中，我们提出的方法在 ATIS 数据集上达到了最好的性能，并在 LARGE 数据集上显著提高了半监督学习性能。我们的模型使得语义标注模型更具一般性，且当标注数据显著多余无标注数据时，半监督学习方法更加有效。

5. 基于深度强化学习的对话管理中的策略自适应

Policy Adaption For Deep Reinforcement Learning-Based Dialogue Management. By Lu Chen, Cheng Chang, Zhi Chen, Bowen Tan, Milica Gasic, Kai Yu.

对话策略优化是统计对话管理的核心。深度强化学习被成功应用于提前定义好的固定领域中，但是当领域动态发生变化，例如有新的语义槽被添加到当前领域的本体中，或者策略被迁移到其它领域时，对话状态空间和对话动作集合都会发生变化，因而表示对话策略的神经网络结构也会发生变化。这将使得对话策略的自适应变得十分困难。本文提出一种多智能体对话策略 MADP(Multi-Agent Dialogue Policy), 相比于普通的基于深度强化学习的对话策略，MADP 不仅学习更快，也更适合于领域扩展和迁移。MADP 包括一个语义槽无关的智能体（G-Agent）和一些语义槽相关的智能体（S-Agent）。每个 S-Agent 除了有私有参数外，还有相互之间共享的参数。当策略进行迁移时，S-Agent 中的共享参数和 G-Agent 中的参数可以直接迁移到新领域中。模拟实验表明 MADP 可以显著提升对话策略的学习速度，而且有利于策略自适应。

6. 单通道多说话人语音识别中基于排列不变训练的知识迁移

Knowledge Transfer in Permutation Invatiant Training for Single-Channel Multi-Talker Speech Recognition. By Tian Tan, Yanmin Qian and Dong Yu

本文提出了一种结合师生训练 TS(teacher-student training) 和排列不变性训练 PIT（permutation invariant training）的单通道多说话人语音识别的框架。通过使用循序渐进的训练的方法将多个教师的知识进行集成用于进一步完善系统，利用没有标注的数据为多说话者语音识别进行领域自适应。实验表明，TS 可以将错词率（WER）相对于基线 PIT 模型降低了相对 20％。我们还在人工混合的 WSJ0 语料库上进行了评估，相对于使用 AMI 训练的 PIT 模型实现了相对 30％的 WER 降低。

7. 单通道多说话人语音识别中基于辅助信息的自适应性排列不变训练

Adaptive Permutation Invariant Training with Auxiliary Information for Monaural Multi-Talker Speech Recognition. By Xuankai Chang, Yanmin Qian and Dong Yu.

本文提出了在之前的 PIT 语音识别模型上利用辅助信息做说话人自适应，提升单声道多说话人语音识别的性能。利用混合语音的音调和 i-vector 做为辅助输入，用说话人组合的性别信息做为辅助任务，使用辅助特征和多任务学习方法对置换不变量训练模型进行训练，让语音分离和识别模型自适应于不同的说话人组合。另外，我们使用了 CNN-BLSTM 模型，结果证明排列不变性训练 (PIT) 可以容易地与先进的技术相结合，达到提高性能的目的，最终系统相相对提升 10%。

8. 基于深度混叠生成网络的声学模型快速自适应方法

Fast Adaptation on Deep Mixture Generative Network based Acoustic Modeling. By Wen Ding, Tian Tan and Yanmin Qian

深度神经网络的正则化和自适应比较困难。我们深度混合生成网络，提出更高效的自适应方法：首先采用无监督模式提出自适应均值；提出鉴别性线性回归，当缺乏自适应数据时，能够估算出一个更鲁棒的均值。实验表明，我们提出的方法均比说话人无关的基线要好；此外对深度混合生成网络自适应结果的可视化标明，鉴别性线性回归的确帮助了均值从一个全局的点转换到说话人自身的中心点。

9. 基于生成对抗网络数据生成的抗噪鲁棒语音识别

Generative Adversarial Networks based Data Augmentation for Noise Robust Speech Recognition. By Hu Hu, Tian Tan and Yanmin Qian.

我们提出了利用生成对抗网络生成新的训练数据来提升鲁棒语音识别系统识别性能的方法。利用现有噪声数据，通过生成对抗网络生成不带标注的新的训练数据，并提出了一种无监督的训练方法来利用这些数据辅助声学模型的训练。本文在标准噪声数据集 Aurara4 上获得了较为显著的提升效果。

10. 联合 i-Vector 的端到端短时文本不相关说话人确认

Joint i-Vector with End-to-End System for Short Duration Text-Independent Speaker Verification. By Zili Huang, Shuai Wang and Yanmin Qian.

我们尝试在基于三元组损失函数的端到端声纹识别系统中引入 i-vector 嵌入。在短时文本无关任务上取得了 31.0% 的提升。除此之外，我们提出了困难样本采样的方法提升基于三元组损失函数的端到端声纹识别系统的性能。

11. 神经网络语言模型中利用结构化词向量的快速集外词合并

Fast OOV Words Incorporation Using Structured Word Embedding For Neural Network Language Model. By Ruinian Chen, Kai Yu.

利用句法和形态层面的参数共享来解决神经网络语言模型中的集外词问题。每个词的 embedding 分成两个部分: syntactic embedding 和 morphological embedding, 而集外词的 syntactic 和 morphological 的信息可以通过知识获得，因此可以利用神经网络中已经训练好的参数，而无需重新训练模型。实验表明我们的模型在 PPL 和 CER 指标上均优于基线模型。

12. 基于无监督语音识别错误自适应的鲁棒自然语言理解

Robust Spoken Language Understanding With Unsupervised ASR-Error Adaption. By Su Zhu, Quyu Lan, Kai Yu.

立足口语对话系统中的语义理解模块，重点解决后端语义理解对于前端语音识别错误的鲁棒性不足的问题。我们利用部分参数共享的 BLSTM 架构，提出无监督的语音识别错误自适应训练方法来提升语义理解的鲁棒性。本文提出的方法不需要对语音识别结果进行语义标注就可以取得与之匹配的性能水平，可以大大减少人工标注的工作量。

13. 音频到词语端到端语音识别中的模块化训练框架

On Modular Training of Neural Acoustics-to- Word Model For LVCSR. By Zhehuai Chen, Qi Liu, Hao Li, Kai Yu.

传统的端到端系统不能使用文本数据进行训练，导致需要大量标注的声学数据进行训练。我们率先提出模块化的端到端模型训练框架。一个音频到音素的声学模型和一个音素到词语的语言模型分别基于声学和语言数据进行训练，然后进行基于音素同步解码的声学和语言模型联合训练。实验显示，这一框架下训练得到的端到端模型在取得传统系统相似准确率的情况下，大幅降低了推测复杂度。

14. 鸡尾酒会的序列建模

Sequence Modeling in Unsupervised Single-Channel Overlapped Speech Recognition. By Zhehuai Chen, Jasha Droppo.

鸡尾酒会问题的解决需要声学模型具有强大的序列建模能力。我们在训练阶段为 PIT 模型添加了显式的序列依赖性，将语言模型信息融入 PIT 模型的组合决策过程中。实验结果显示，这两项技术的加入能够显著提升现有系统的准确率，与序列鉴别性训练和迁移学习相结合，能使最终系统的准确率提升 30% 以上。

语音顶会ICASSP 2018落幕， 思必驰-上交大实验室14篇论文入选