李勇 作者杨茹茵编辑

CVPR 2019 | 「识面知心」——基于自监督学习的微表情特征表达

编者按:著名心理学家Paul Ekman和研究伙伴W.V.Friesen,通过对脸部肌肉动作与对应表情关系的研究,于1976年创制了“面部运动编码系统”,而利用微表情的“读心术”正是基于这一研究体系。由于该领域有限的数据集和高昂的标注成本,有监督学习的方法往往会导致模型过拟合。本文中,将为大家介绍中科院计算所VIPL组的CVPR2019新作:作者提出了一种基于视频流的自监督特征表达方法,通过利用巧妙的自监督约束信号, 得到提纯的面部动作特征用于微表情识别。

1.研究背景

面部运动编码系统 (FACS,Facial Action Coding System)从人脸解剖学的角度,定义了44个面部动作单元(Action Unit,简称AU)用于描述人脸局部区域的肌肉运动,如图1所示,AU9表示“皱鼻”,AU12表示“嘴角拉伸”。各种动作单元之间可以自由组合,对应不同的表情。如“AU4(降低眉毛)+AU5(上眼睑上升)+AU24(嘴唇相互按压)”这一组合对应“愤怒”这一情绪状态。

面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了AU识别问题的研究进展,其原因在于不同的AU分布在人脸的不同区域,表现为不同强度、不同尺度的细微变化。具体来说,为一分钟的人脸视频标注一个AU,需要耗费一名AU标注专家30分钟。目前学术界已发布的AU数据集只包含了有限的采集对象,以及有限的人脸图像(如2017年CMU发布的GFT数据集有96个人,约35,000张人脸图像)。

图1. 面部动作单元示例当前已有的工作多采用人脸区域分块注意力机制等方法学习人脸局部区域的AU特征,这类方法在训练阶段需要利用精确标注的AU标签,由于目前业界发布的AU数据集人数及图像总量不足,采用监督学习方法训练得到的模型往往呈现出在特定数据集上的过拟合现象,这无疑限制了其实际使用效果。

我们提出了一种能够在不依赖AU标签的前提下,从人脸视频数据中自动学习AU表征的方法(Twin-Cycle Autoencoder,简称TCAE)。TCAE用于后续的AU识别任务时,只需要利用训练数据训练一个分类器即可,显著减少了所需的训练数据,并提升了模型的泛化能力。

2.方法概述

如图2所示,该方法以两帧人脸图像(源图,目标图)之间的运动信息为监督信号,驱使模型提取出用于解码运动信息的图像特征。这个方法的理念在于,模型只有感知理解了人脸图像中各个面部动作单元的状态(AU是否激活),才能够将源图的面部动作转换为目标图像的面部动作。

图2. TCAE 设计图考虑到两帧人脸图像之间的运动信息包含了AU以及头部姿态的运动分量,TCAE通过利用巧妙的自监督约束信号,使得模型能够分离出AU变化引起的运动分量,以及头部姿态变化引起的运动分量,从而得到提纯的AU特征。与其他监督方法,TCAE可以利用大量的无标注人脸视频,这类视频是海量的。与半监督或者弱监督方法相比, TCAE采用了自监督信号进行模型训练,避免了对数据或者标签的分布做出任何假设。

3.算法详解

如图3所示,TCAE包含四个阶段,分别是特征解耦,图像重建,AU循环变换,以及姿态(pose)循环变换。

给定两张人脸图像,TCAE在特征解耦阶段使用编码器得到每张图像的AU特征以及姿态特征,随后,两帧图像的AU特征被送入AU解码器,用于解码出AU位移场;两帧图像的姿态特征被送入姿态解码器,用于解码出姿态位移场。考虑到AU的变化是稀疏的,且AU位移场的数值与姿态位移场相比更小,我们为AU位移场添加了L1约束:

在目标图重建阶段,TCAE通过线性组合AU位移场和pose位移场,得到源图和目标图之间的整体位移场,进行图像重建

在AU循环变换阶段,仅变换了AU的人脸图像被重新变换到源图,由此我们获得一个像素层面的一致性约束:

另外,对于变换了AU的人脸图像,其AU特征应该接近目标图像的AU特征,其姿态特征应该和源图的姿态特征一致,由此我们获得一个特征层面的一致性约束:

同理,在pose循环变化阶段,我们同样可以获得类似的像素及特征层面的一致性约束:

图3.  TCAE的四个阶段示意图,四个阶段分别是特征解耦,图像重建,AU循环变换,以及pose循环变换。4.实验结果

多个数据集上的实验证明,TCAE能够成功提取出人脸图像的AU及姿态特征。如图4所示,给定两张人脸图像(源图,目标图),TCAE能够仅仅改变源图的AU或者头部姿态。可视化的AU位移场呈现出运动方向的多样性。

在AU识别任务上,TCAE取得了与监督方法可比的性能。表1及表2的结果表明,TCAE明显优于其他自监督方法。在GFT数据集(该数据集存在大范围的头部姿态变化)上,TCAE的性能优于其他监督方法。 

图4. 可视化结果
表1. BP4D及DISFA数据集评测结果

(评测标准:F1 值 (%))

表2.  GFT及EmotioNet数据集评测结果(评测标准:F1 值 (%) )

5.总结与展望

TCAE通过自监督的方法学习到了鲁棒的AU表征,实验证明该AU表征是鲁棒的,适用于AU分类任务的。可视化结果表明,TCAE具有潜在的人脸表情编辑价值。另外,TCAE在训练阶段使用了大量的无标签数据(近6000人,约10,000,000张图像),由此可见使用自监督方法训练模型时数据利用的效率需要进一步提高,这一点在BERT的实验分析中也得到了印证:Good results on pre-training is >1,000x to 100,000 more expensive than supervised training。

论文信息:

Yong Li, Jiabei Zeng, Shiguang Shan,  Xilin Chen.  “Self-Supervised Representation Learning From Videos for Facial Action Unit Detection”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019) , pp. 10924-10933, Long Beach, California, USA, June 16-20, 2019.

论文链接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Self-Supervised_Representation_Learning_From_Videos_for_Facial_Action_Unit_Detection_CVPR_2019_paper.pdf

作者简介:

李勇,中国科学院计算技术研究所vipl课题组博士研究生,导师为常虹副研究员以及山世光研究员,研究方向为开放场景下的人脸表情分析。在攻读博士学位期间,李勇在 CVPR, TIP 等会议及期刊上发表过多篇学术论文,其已发表的会议文章均被录取为口头报告。此外,李勇获得ACM Multimedia 2017 亲属关系识别国际竞赛冠军。


深度学习大讲堂
深度学习大讲堂

高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息。

理论微表情识别技术自监督学习CVPR 2019
41
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

分块技术

将标注好词性的句子按句法结构把某些词聚合在一起形成比如主语、谓语、宾语等等。

推荐文章
good👍🏻