语音情感识别 | 机器之心

简介

描述：

语音情感识别通常指机器从语音中自动识别人类情感和情感相关状态的过程。

这一过程最主要的两大步骤是特征提取与构建分类器。在特征提取步骤中，最常用的有能量（energy），音高（pitch），梅尔频率倒谱系数（MFCC）等语音特征。语音情感识别发展至今，特征提取依然尚未成熟，目前最为普及的特征集有INTERSPEECH 2009 Emotion Challenge和 INTERSPEECH 2013 Paralinguistics Challenge中主办方选取的特征集以及语音信号处理工具openSMILE中的特征集等。

构建分类器步骤则是机器学习的环节。过去常用的分类器有高斯混合模型（GMM），隐马尔可夫模型（HMM），支持向量机（SVM）等经典的机器学习方法。得益于神经网络的发展，长短时记忆模型（LSTM），注意力机制等方法取代了经典方法成为了主流。近年，端到端（end-to-end）的方法开始被应用，简化甚至省略了特征提取的步骤。

基本的语音情感识别流程如下图所示：

语音信号首先通过语音处理系统被转化为可读的多种物理特征（音高，能量等），每一段语音信号都有其独特的特征。这些特征中会有一部分经过人为选择，被系统提取，输入到预先训练好的分类器中进行判别，输出情感状态的结果。

图片来源：https://www.cc.gatech.edu/~athomaz/classes/CS8803-HRI-Spr08/icat/voice.html

以下的例子可以帮助理解什么是语音情感识别：

客服每天处理大量投诉电话需要耗费大量人力物力，如今世界上很多客户服务已经采用自动化的语音提示与操作（比如打给中国移动办理手机业务）。然而在问题无法解决或者用户表述不清时，这种非人工服务无法进行进一步操作，从而引发用户的不满和投诉。针对这一情况，日本NTT研究所研发出一款客服电话情感识别系统，对用户的电话语音进行收集处理，如果未检测到用户愤怒的情感，则继续当前的语音服务，而如果检测到愤怒的情感，则转为人工服务进行业务处理。目前这一项成果已经投入使用。

来源：

Schuller, B. W. (2018). Speech emotion recognition: two decades in a nutshell, benchmarks, and ongoing trends. Communications of the ACM, 61(5), 90-99.　https://dl.acm.org/citation.cfm?id=3129340
Kerkeni L., Serrestou Y., Mbarki M., Raoof K. and Mahjoub M. (2018). Speech Emotion Recognition: Methods and Cases Study. In Proceedings of the 10th International Conference on Agents and Artificial Intelligence - Volume 2: ICAART　https://www.researchgate.net/publication/322873355_Speech_Emotion_Recognition_Methods_and_Cases_Study
Anger recognition from conversational speech technology　http://www.ntt.co.jp/md/e/products/product_10.html

发展历史

描述

语音情感识别这一研究方向起源于1996年Daellert等人在ICSLP上发表的论文“Recognizing emotion in speech”。语音情感识别的发展已有23年的历史，关于语音特征，分类方法以及数据集的研究层出不穷，基于高斯混合模型，隐马尔可夫模型，最大似然贝叶斯，K临近等等方法均有尝试涉及。

2003年，Schuller等人在ICASSP2003上发表的论文“Hidden Markov Model-based Speech Emotion Recognition”系统介绍了基于隐马尔可夫和高斯混合模型的方法在情感识别上的成果。同年，Nwe等人也发表了使用隐马尔可夫模型进行语音情感识别的方法。基于HMM-GMM的方法一时成为主流。

2009年，Schuller等人在语音顶会INTERSPEECH上组织的Emotion Challenge力图在这个比较年轻的研究领域中消除广大研究结果不可比较性的问题，提出了比较权威的数据集和特征集，并且征集了参与者提出的优秀的分类器和使用的特征。

2010年前后，由于支持向量机应用的广泛普及，基于SVM的分类方法成为主流。Pan等人的论文“Speech emotion recognition using support vector machine”介绍了主流的语音特征，数据库和SVM的判别方法。同时，结合多模态信息来提高识别率的方法开始被关注。Schuller等人的论文“Speaker independent emotion recognition by early fusion of acoustic and linguistic features within ensembles”验证了通过结合语音和文字信息，识别率可以得到有效提高。

2011年，Ayadi等人发表论文“Survey on speech emotion recognition: Features, classification schemes, and databases”，总结了当前常用的语音特征，分类方法和数据集

2014年起，得益于深度神经网络的广泛应用，语音情感识别开始从传统的分类方法转向神经网络，DNN成为了语音情感识别的主流。Han等人的论文“Speech emotion recognition using deep neural network and extreme learning machine” 验证了通过使用深度神经网络，语音信号中的高维特征足够取得良好表现。

近年，端到端的方法被广泛关注。2016年，Trigeorgis等人的论文“Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network” 提出了端到端的方法可以直接从原始语音信号中学习情感信息，避免了特征提取无法对所有说话人语音鲁棒的问题。

2018年，Schuller发表文章“Speech emotion recognition: two decades in a nutshell, benchmarks, and ongoing trends”回顾并总结了语音情感识别20年来的难题，里程碑和发展趋势。

主要事件

年份	事件	相关论文/Reference
1996	语音情感识别研究的起源	Dellaert, F., Polzin, T., & Waibel, A. (1996). Recognizing emotion in speech. In Fourth International Conference on Spoken Language Processing.
2003	基于隐马尔可夫和高斯混合模型的方法被提出	Schuller, B., Rigoll, G., & Lang, M. (2003, April). Hidden Markov model-based speech emotion recognition. In Acoustics, Speech, and Signal Processing, 2003. Proceedings.(ICASSP'03). 2003 IEEE International Conference on (Vol. 2, pp. II-1). IEEE.
2009	INTERSPEECH 2009 Emotion Challenge的举行	Schuller, B., Steidl, S., & Batliner, A. (2009). The interspeech 2009 emotion challenge. In Tenth Annual Conference of the International Speech Communication Association.
2010	支持向量机开始成为主流方法	Pan, Y., Shen, P., & Shen, L. (2012). Speech emotion recognition using support vector machine. International Journal of Smart Home, 6(2), 101-108.
2014	深度神经网络开始成为主流方法	Han, K., Yu, D., & Tashev, I. (2014). Speech emotion recognition using deep neural network and extreme learning machine. In Fifteenth annual conference of the international speech communication association.
2016	端到端方法开始被关注	Trigeorgis, G., Ringeval, F., Brueckner, R., Marchi, E., Nicolaou, M. A., Schuller, B., & Zafeiriou, S. (2016, March). Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network. In Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on (pp. 5200-5204). IEEE.
2018	语音情感识别20年来的发展，难题和今后方向被总结	Schuller, B. W. (2018). Speech emotion recognition: two decades in a nutshell, benchmarks, and ongoing trends. Communications of the ACM, 61(5), 90-99.

发展分析

瓶颈

数据标注是个非常费时费力，同时需要大量专业人员的过程。虽然可用的数据集不少，但是研究人员想建立特定场景的数据集非常困难。
特征提取和选择仍然是一个难题。语音情感识别由于说话人多样，情感多变，语音片段长短不一等原因，人为选取的特征无法涵盖全部信息，对数据整体的鲁棒性不够强。
语音情感识别这个领域还比较年轻，缺乏官方的标准。不同的人对同一段语音情感会有不同的观点。同时，一段语音往往含有多个情感，主观性较强，导致现在很多研究的结果没有普适性。

未来发展方向

多语言，跨语言的情感识别。我们人类即使听不懂外国人在说什么，也大致明白他们的语气和态度，这是今后机器需要掌握的情感识别。
识别讽刺和挖苦等较难的情感。
强化端到端方法的研究，省略特征选择步骤，让系统自行学习语音中的情感信息，避免局限性。

Contributor: Yuanchao Li

简介