Interspeech 2019 | 滴滴论文解读：基于多模态对齐的语音情感识别

Interspeech 2019

语音领域顶级学术会议 Interspeech于2019年9月15-19日在奥地利格拉茨举行。

在 Interspeech 会议期间，来自全球学术界和产业界的研究人员齐聚一堂，讨论语音领域的新技术，包括语音合成、语音识别、说话人识别等细分领域。在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。

本次会议共吸引2180篇论文投递，其中75%来自学界，22%来自工业界。

今年滴滴共有两篇入选Interspeech。本文介绍了滴滴AI Labs被大会接收的一篇论文“基于多模态对齐的语音情感识别 Learning Alignment for Multimodal Emotion Recognition from Speech”。

在本篇论文中，滴滴提出基于多模态对齐的语音情感识别的模型。模型先利用双向长短期记忆模型（BiLSTM）对音频基于帧进行高维特征表示，对语音识别（ASR）的文本基于单词进行高维特征表示，然后利用注意力（Attention）机制自动学习音频和识别文本的对齐信息，从而得到更准确的多模态的情感特征表示来进行情感识别。论文在语音情感识别的公开数据集IEMOCAP取得了当前最好的性能。

论文地址：https://arxiv.org/abs/1909.05645

语音情感识别是一个非常具有挑战性的问题，因为人们总是以微妙和复杂的方式传达情感。对于语音情感识别，当前的方法主要包括：1）直接通过语音信号特征；2）通过语音识别的文本特征；3）融合音频-文本的多模态特征。当前的方法忽视了音频和识别文本在时序空间的交互。

在本篇论文中，滴滴提出基于多模态对齐的语音情感识别的模型。在语音情感识别的公开数据集IEMOCAP取得了当前最好的性能。

基于多模态的语音情感识别的方法可以用于智能客服（如客服质检，机器人客服互动式语音应答），其中机器人客服质检主要是根据语音和识别文本对客服和用户的情绪进行分析，辅助质检，机器人客服互动式语音应答主要是根据语音和识别文本对进线用户的情绪进行分析，合理应答。

Interspeech 2019现场

模型

本文提出的多模态对齐的语音情感识别的模型，主要包括语音的编码器模块，语音识别文本的编码器模块，以及基于注意力机制的多模态融合网络模块，具体的模型结构图如上图。

语音的编码器模块

我们首先获取语音的低维度的基于帧的MFCC特征，然后用BiLSTM对音频基于帧进行高维特征表示。

语音识别文本的编码器模块

我们首先预训练（Pretraining）来获取单词的词向量（Word Embedding）表示，然后用BiLSTM对ASR识别文本基于单词进行高维特征表示。

基于注意力机制的多模态融合网络模块

我们利用Attention机制动态学出每个单词文本特征的权重和每帧语音的特征，然后加权求和得到每个单词的语音对齐的特征，接着我们将对齐的特征和文本的特征拼接并用BiLSTM来做特征的融合，最后我们用最大池化层和全连接层进行情感分类。

实验

论文在语音情感识别的公开数据集IEMOCAP评测了模型。IEMOCAP数据集是由10个演员录制，对话主要包括10个情感。论文与之前的方法保持一致使用了主要的4个情感（生气，开心，中性，伤心）。

在实验中，论文选择 1）直接通过语音信号特征 2）通过语音识别的文本特征 3）融合音频-文本的多模态特征这三类方法的对比，通过上图（Table 1），可以看出本论文的模型在加权精确度（WA）和非加权精确度（UA）评价指标都有显著提高，证明了学习音频和文本对齐信息的多模学习方法的有效性。

此外，论文也分析了识别结果和对齐方式的影响，通过Table 2（上图），可以看出如果使用数据集提供的正确的文本，相比识别文本能有一定的提升。基于attention的动态的基于情感的对齐信息，相比基于ASR的对齐方式更为有效。

理论Interspeech 2019滴滴多模态对齐情感识别