旷视科技提出GridFace:通过学习局部单应变换实现人脸校正

全球计算机视觉三大顶会之一 ECCV 2018 (European Conference on Computer Vision)即将于9月8 -14日在德国慕尼黑拉开帷幕。届时,旷视首席科学家孙剑博士将带领团队远赴盛会,助力计算机视觉技术的交流与落地。而在此之前,旷视科技将陆续推出 ECCV 2018 接收论文系列解读。本文是第 9 篇,一种通过学习局部单应变换实现人脸校正的全新方法——GridFace。

论文名称:《GridFace: Face Rectification via Learning Local Homography Transformations》

论文链接:https://arxiv.org/abs/1808.06210

导语

大千世界之中,人脸可谓是机器视觉识别技术的“第一号”目标,人脸识别顺理成章成为人工智能领域抢占的技术高地;在这场最为激烈的机器视觉技术制高点的争夺战中,人脸识别技术不断突破向前,甚至赶越人类水平。但是,在不受限环境中,人脸识别仍不能万无一失,尤其是在人脸几何变形的情况下。

有鉴于此,旷视科技创新性地提出 GridFace,通过学习局部单应变换减少人脸变形,提升识别性能。一句话,先校正,再识别,过硬的校正技术使得人脸识别性能得到显著提高。相关实验结果已证明该方法的有效性和高效性。这一原创技术将进一步强化旷视科技攻克四大识别目标(人、脸、车、字)的能力,有利于补足 AI 原创技术矩阵,达成 AI+IoT 闭环战略,持续为数字经济发展提供新动能。

图 1:GridFace人脸校正实例

背景

尽管深度学习在学界、业界均已获得重大进展,但是依然无法声称,人脸识别技术的应用落地毫不受限。自然场景中,人脸识别面临的现有挑战之一是人脸几何变形(facial geometric variations)。人脸在角度和对齐方面(由人脸检测边界框定位引入)的变形将从根本上影响人脸的表征和识别的性能。

解决这一问题的常用方法之一是通过 2D 变换把人脸关键点标定到预定义模版(即 2D 平均人脸关键点或者 3D 平均人脸模型);但是这种预处理方法并不是针对识别优化的,并严重依赖手工调节的参数和精确的人脸关键点。

为此,近期一些工作借助空间变换网络(Spatial Transformer Network/STN)实现端到端优化,可以兼顾人脸对齐和检测/识别。但是,通过 STN 学习的变换使用整体参数模型,只能捕捉一些粗糙的几何信息,比如人脸定向,并有可能校正结果的明显扭曲。

设计思想

有鉴于此,本文提出一种全新的方法,称之为 GridFace,以减少人脸几何变形,提升识别性能。如图 2 所示,该系统包含两个模块:校正模块和识别模块。

图 2:GridFace 图示

在校正模块中,研究者通过一个人脸校正网络评估一组局部单应变换(local homography transformations),以校正输入的人脸图像。研究者还通过一组可变形平面单元近似 3D 标准人脸形状。当输入一张带有几何变形的人脸,评估其局部单应变换,以分别建模每个单元的扭曲。为鼓励生成标准的视角,研究者加入一个基于标准视角人脸分布的正则化。这一自然的人脸分布并未被显式建模。

相反,受到先前工作的启发,研究者通过一个降噪自编码器(Denoising Autoencoder)评估概率密度对数的梯度。识别模块把已校正的图像作为输入,并通过度量学习学习可判别性表征。

本文首先给出了这一方法的定量和定性结果,并在 4 个颇具挑战性的公开基准 LFW、YTF、IJB-A 和 Multi-PIE 上进行评估。相较于最新的人脸转正和识别工作,该方法在所有基准上取得了当前最优或者颇具竞争力的结果。本文贡献总结如下:

1.通过减少带有局部单应变换的人脸几何变形,本文提出一种提升人脸识别性能的全新方法。

2.本文引入一个人脸标准先验和一个基于近似方法的降噪自编码器正则化人脸校正,完善校正质量。

3.在受限和不受限环境中开展的扩展实验证明了该方法的优越性。

方法

另 I^X,I^Y 表示原始图像和校正图像。把原始图像 I^X 的坐标系作为原始坐标系,校正图像 I^Y 中的坐标系作为校正坐标系。另 p=和 q= 表示原始坐标系和校正坐标系中的点。通过 p̂ 和 q̂ 分别把单应坐标系表示为  p̂=和 q̂=。在不损失通用性的前提下,研究者假设像素的坐标系被归一化为 [0, 1) × [0, 1)。

概述

如上所述,GridFace 包含两个部分,校正模块和识别模块。在校正过程中,带有参数 θ 的校正网络 f_θ  通过非刚性图像扭曲把原始的人脸图像 I^X 映射到校正图像 I^Y。接着,识别网络    g_φ 由基于校正图像 I^Y 的度量学习训练。标准视角下的自然人脸分布被作为正则化引入训练,用以鼓励标准视角的人脸校正。

人脸校正网络

不同于最近的人脸转正技术从抽象特征中生成人脸,本文把校正过程定义为从原始图像到校准后的标准图像的像素扭曲,如图 3 所示。

图 3:局部单应变换

研究者通过把校正图像分割成 n^2 个非重叠单元以定义模版 Q:

对于每个单元,研究者通过评估局部单应矩阵 计算原始图像中相应的可变形单元。具体而言,单应矩阵可写为:

校正网络把原始图像 I^X 作为输入,并预测 n^2 个残差矩阵 。接着,获得单元的校正图像 I^Y,同时单应矩阵 可写为:

其中 p̂ 和 q̂ 是 p 和 q 的单应坐标系。

把每一单元 的角点集合用 C 表示为 。由于分别评估所有的局部单应矩阵,校正图像中的一个单元角点被映射到原始图像中的多个点(见图 3)。为避免 I^X 中相邻单元的边界之间出现较大的不一致性,研究者进一步引入一个软约束,称之为可变形约束 L_de。具体而言,另 M_i 表示原始图像中 c_i 坐标系的集合;接着添加一个软约束 ,从而把 M_i 中每一对点之间的一致性强化为 。研究者把这一软约束并入学习目标,并作为校正网络的可变形损失函数

降噪自编码器正则化

正则化鼓励校正过程生成标准视角的人脸。研究者将其定义为一个图像先验,它直接基于自然图像的标准视角人脸分布 P_Y:

一般来讲,这一优化至关重要。研究者没有明确地建模这一分布,而是考虑的梯度,并通过随机梯度下降最大化它:

借助于用于图像生成和复原的先前结果,研究者把先验梯度近似为

这里,(,)是在真实数据分布 P_Y (本文的标准视角人脸)上训练的最优降噪自编码器。借助这些结果,研究者通过在标准视角人脸数据集上训练一个降噪自编码器 h_ω 来优化公式 5,接着通过公式 7 评估反向传播中已近似的梯度。

人脸识别网络

给定校正人脸 ,研究者利用深度卷积识别网络 g_φ 提取人脸表征 。按照先前工作,研究者使用三元组损失函数(triplet loss)训练识别网络。另 表示 3 张图像,形成一个人脸三元组,其中 和 来自同一个人,来自另外一个人。识别损失函数如下:

其中 是特征表征 x 和 y 之间的欧几里得距离。超参数 α 控制三元组损失函数之内人内距离和人间距离之间的余量(margin)。

总结一下,研究者通过最小化一个目标联合优化校正网络和识别网路,包括一个可变形项,一个识别项和一个正则化项:

实验

GridFace 所使用的数据集是社交网络人脸数据集(Social Network Face Dataset/SNFace),它包含大约 10M 张图像和 200K 张人脸。在本文的所有实验中,研究者使用 GoogLeNet 作为识别网络,校正网络基于一个修改的 Inception 模块。降噪自编码器基于一个卷积自编码器架构而设计。网络细节请见表 1:

表 1:网络细节

人脸校正

本文所有方法的评估均在 SNFace 测试集上,研究者对比了若干个同类方法:baseline 模型没有人脸校正;全局模型 Grid-1 通过全局单应变换实现人脸校正;没有人脸先验正则化的模型 Grid-8\reg 在训练期间没有正则化

进而,为了对比在人脸识别技术中使用的 3D 人脸转正技术,研究者借助一项近期的人脸转正技术(Hassner et al.)处理整个 SNFace 数据集以合成正面视角,并与这一在合成数据上(称之为 baseline-3D)训练的模型对比,以验证本文方法人脸校正和联合优化的有效性。

图 4:SNFace 测试集的定量分析

表 2:SNFace 测试集的定量结果

图 5:合成 2D 变换

表 3:合成 2D 变换之下的定量结果

评估结果

为验证已学习模型的跨数据泛化能力,研究者在 4 个挑战赛公开基准上做了实验,即 LFW,YTF,Multi-PIE 和 IJB-A,它们涵盖大角度、表情以及光照变化情况下的人脸校正。

图 8:GridFace 在公开基准上的定性结果。左上:LFW;左下:YTF,右上:IJB-A,右下:Multi-PIE。

表 4:LFW 和 YTF 评估结果

表 5:Multi-PIE 评估结果

表 6:IJB-A 评估结果

结论

本文开发出一种称之为 GridFace 的方法,以减少人脸几何变形。借助局部单应变换,研究者提出一种全新的非刚性人脸校正方法,并通过把降噪自编码器应用于自然的正面人脸分布来正则化它。实验结果表明该方法可大幅降低人脸变形,提升识别性能。

参考文献

lAlain, G., Bengio, Y.: What regularized auto-encoders learn from the data- generating distribution. The Journal of Machine Learning Research 15(1), 3563– 3593 (2014) 

lJaderberg, M., Simonyan, K., Zisserman, A., et al.: Spatial transformer networks. In: Advances in Neural Information Processing Systems 28. pp. 2017–2025 (2015) 

lS ̈arela ̈, J., Valpola, H.: Denoising source separation. Journal of machine learning research 6(Mar), 233–272 (2005)   

lChen, D., Hua, G., Wen, F., Sun, J.: Supervised transformer network for effi- cient face detection. In: European Conference on Computer Vision. pp. 122–138. Springer (2016) 

lZhong, Y., Chen, J., Huang, B.: Toward end-to-end face recognition through align- ment learning. IEEE Signal Processing Letters 24(8), 1213–1217 (Aug 2017). https://doi.org/10.1109/LSP.2017.2715076 

旷视科技
旷视科技

Power Human with AI

理论ECCV 2018
23
相关数据
孙剑人物

孙剑,男,前微软亚研院首席研究员,现任北京旷视科技有限公司(Face++)首席科学家、旷视研究院院长 。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类,检测和定位,MS COCO 检测和分割) ,其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

度量学习技术

即学习一个度量空间,在该空间中的学习异常高效,这种方法多用于小样本分类。直观来看,如果我们的目标是从少量样本图像中学习,那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是,正如你可能想到的那样,在像素空间里进行图像对比的效果并不好。不过,你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似,元学习通过梯度下降(或者其他神经网络优化器)来进行,而学习者对应对比机制,即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好,不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证。

欧几里得距离技术

在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。 使用这个距离,欧氏空间成为度量空间。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

降噪自编码器技术

当采用无监督的方法分层预训练深度网络的权值时,为了学习到较鲁棒的特征,可以在网络的可视层(即数据的输入层)引入随机噪声,这种方法称为Denoise Autoencoder(简称dAE)

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

请问单变形那里我没看明白,数据集是有标签吗?还是怎么学到的变形效果?非常感谢
参考STN,半监督学习的,不用标记变形数据
STN应用人脸方面的研究只搜到这篇文章,不知道有没有其他的应用。