EmotiW2018国际大赛夺冠,解析思图场景情感识别算法

当地时间2018年10月20日,由国际计算机协会ACM ICMI 2018举办的第六届EmotiW2018 视频情感识别大赛在美国科罗拉多进行了奖项授予。

思图场景AI团队在百余支世界顶尖研究机构与院校成绩比拼中脱颖而出,获得了音视频短片情绪分类挑战赛冠军奖杯。本次大赛,思图场景在EmotiW2018的视频情绪分类挑战赛中获得第一名,情绪识别分类准确率比2017年冠军Intel Lab高1.53%。

(EmotiW2018 音视频组竞赛前10名)

在此次国际大赛中,思图场景充分用成绩证明了“以应用场景为基础的研发模式”在人工智能技术发展方面的创新性及有效性,为人工智能技术在应用领域的发展提供了思路。

思图场景AI团队获奖

经过与思图场景AI团队沟通与允许后,下面对其情感识别算法进行一下重要解析与公布:

思图场景情感识别算法采用多种特征融合的方式对视频进行了分类,显著提升了情绪识别的准确率,其整体结构如下:

其算法主要涉及到4个模块,分别是卷积神经网络(CNN)、长短期记忆网络(LSTM)、人脸关键点几何特征和声音特征。这四个不同的特征模块,保证了算法可以学习到视频的多方信息。

CNN和LSTM是两个比较流行的处理视频情绪的方法,他们需要依靠大量的数据支撑,思图场景凭借在情感计算中积累的数据库进行深度学习模型预训练。在不同深度学习网络中,视频单帧人脸情绪识别准确率为:

Network

Inception-V3

DenseNet-121

DenseNet-161

DenseNet-201

预测准确率

82.79

83.86

83.27

79.75

运用人脸图片预训练的深度学习模型,进行时视频情绪分类的结构如下,其中具体用到了两种方式对提取的CNN特征进行归一化:

除此之外,思图场景还运用了工程上经过验证的方法:关键点欧式距离,该方法提取了一些人脸的高级特征,运用关键点的几何变化来预测情绪变化。该方法证实可靠高效,并且不需额外数据集训练,对结果有很大影响。其程序为:人脸3D关键点检测,3D特征提取,取平均值,标准差和最大值,SVM分类器的训练。具体流程如下:

在音频方面,思图场景首次运用SoundNet的结构来对声音进行预测:

通过上述多种算法模块融合,思图场景在EmotiW2018上最终的准确率为61.87%。

Item

Result

Baseline

40.47

Emotiw2017 1st Intel Lab

60.34

Emotiw2018 1st SituTech

61.87

其对应的多种情绪混淆矩阵如下表:

这表明,思图场景自身的算法及海量数据集对视频情感分类的效果提升明显,尤其是在判断开心、生气和中性非常明显,其可靠类别的分类情况已经达到商用落地的水平,可在一定应用环境下更真实的“体会”用户的意图,进而促进视觉理解、人机交互技术在场景应用层面的发展。


产业人工智能应用算法竞赛
1
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

混淆矩阵技术

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。矩阵的每一行表示预测类中的实例,而每一列表示实际类中的实例(反之亦然)。 这个名字源于这样一个事实,即很容易看出系统是否混淆了两个类。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~