当地时间2018年10月20日,由国际计算机协会ACM ICMI 2018举办的第六届EmotiW2018 视频情感识别大赛在美国科罗拉多进行了奖项授予。
思图场景AI团队在百余支世界顶尖研究机构与院校成绩比拼中脱颖而出,获得了音视频短片情绪分类挑战赛冠军奖杯。本次大赛,思图场景在EmotiW2018的视频情绪分类挑战赛中获得第一名,情绪识别分类准确率比2017年冠军Intel Lab高1.53%。
在此次国际大赛中,思图场景充分用成绩证明了“以应用场景为基础的研发模式”在人工智能技术发展方面的创新性及有效性,为人工智能技术在应用领域的发展提供了思路。
经过与思图场景AI团队沟通与允许后,下面对其情感识别算法进行一下重要解析与公布:
思图场景情感识别算法采用多种特征融合的方式对视频进行了分类,显著提升了情绪识别的准确率,其整体结构如下:
其算法主要涉及到4个模块,分别是卷积神经网络(CNN)、长短期记忆网络(LSTM)、人脸关键点几何特征和声音特征。这四个不同的特征模块,保证了算法可以学习到视频的多方信息。
CNN和LSTM是两个比较流行的处理视频情绪的方法,他们需要依靠大量的数据支撑,思图场景凭借在情感计算中积累的数据库进行深度学习模型预训练。在不同深度学习网络中,视频单帧人脸情绪识别准确率为:
Network | Inception-V3 | DenseNet-121 | DenseNet-161 | DenseNet-201 |
预测准确率 | 82.79 | 83.86 | 83.27 | 79.75 |
运用人脸图片预训练的深度学习模型,进行时视频情绪分类的结构如下,其中具体用到了两种方式对提取的CNN特征进行归一化:
除此之外,思图场景还运用了工程上经过验证的方法:关键点欧式距离,该方法提取了一些人脸的高级特征,运用关键点的几何变化来预测情绪变化。该方法证实可靠高效,并且不需额外数据集训练,对结果有很大影响。其程序为:人脸3D关键点检测,3D特征提取,取平均值,标准差和最大值,SVM分类器的训练。具体流程如下:
在音频方面,思图场景首次运用SoundNet的结构来对声音进行预测:
通过上述多种算法模块融合,思图场景在EmotiW2018上最终的准确率为61.87%。
Item | Result |
Baseline | 40.47 |
Emotiw2017 1st Intel Lab | 60.34 |
Emotiw2018 1st SituTech | 61.87 |
其对应的多种情绪混淆矩阵如下表:
这表明,思图场景自身的算法及海量数据集对视频情感分类的效果提升明显,尤其是在判断开心、生气和中性非常明显,其可靠类别的分类情况已经达到商用落地的水平,可在一定应用环境下更真实的“体会”用户的意图,进而促进视觉理解、人机交互技术在场景应用层面的发展。