Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

基于人脸图像复原和人脸转正联合模型的人脸识别方法

原文标题:Joint Face Image Restoration and Frontalization For Recognition

论文地址:https://ieeexplore.ieee.org/document/9427073/ 

1、摘要

在现实生活中,许多因素可能会影响人脸识别系统的识别性能,例如大姿势,不良光照,低分辨率,模糊和噪声等。为了应对这些挑战,之前的人脸识别方法通常先把低质量的人脸图像恢复成高质量人脸图像,然后进行人脸识别。然而,这些方法大多是阶段性的,并不是解决人脸识别的最优方案。在本文中,作者提出一种多退化因子的人脸复原模型(Multi-Degradation Face Restoration,MDFR),来一次性解决所有的这些影响因素。MDFR可以从给定的多姿态、多重低质量因素影响的人脸图像中复原其高质量的正面人脸图像。MDFR是一个设计良好的编码器-解码器网络结构。在模型的构建中,作者引入了姿态残差学习策略,以及一个基于3D的姿势归一化模块(3D-based Pose Normalization Module,PNM),该模块可以感知输入人脸姿态和正面人脸姿态之间的差异,以此差异来指导人脸的转正学习。实验表示,训练完成之后的MDFR可以通过一个单一化的网络,一次性地从多重低质量因素影响的侧面人脸图像中恢复其高清的正面人脸图像,并有效的提高人脸算法的识别率。

2、背景及简介

非限制条件下的人脸识别方法是计算机视觉任务中一项重要的工作。在实际应用中,采集到的人脸图像可能包含大姿态,不良光照,低分辨率以及模糊和噪声等,这些影响人脸成像质量的因素可能导致人脸识别应用的失败。为了解决这些问题,已经有很多方法使用分阶段模型来分别处理相应的低质量因子影响的人脸图像,即首先将低质量人脸恢复成高质量的人脸图像,随后进行人脸转正并用于人脸识别。然而这些方法都只考虑了人脸识别的单一因素,很少有方法能够同时解决影响人脸识别的多重因素。因此,这类基于单一因素的人脸处理方法并不能很好的适用于非限制条件下的人脸识别。在本文中,作者提出了一种解决多退化因子的人脸复原模型(MDFR),从给定任意姿态的低质量人脸图像中恢复出高质量正面人脸。

文章的贡献如下:

  • 提出了一种多退化因子人脸复原模型(Multi-Degradation Face Restoration, MDFR),将给定的任意姿态和受多重低质量因子影响的人脸图像恢复为正面且高质量的图像;
  • 在人脸转正过程中,使用了姿态残差学习策略,并且提出了一种基于3D的姿态归一化模块;
  • 提出了一种有效的整合训练策略将人脸重建和转正任务融合到一个统一的网络中,该方法能够进一步提升输出的人脸质量和后续的人脸识别效果;

3、方法描述

MDFR结构如图1所示。在训练过程中,MDFR主要包含两个模块,即双代理生成器(Dual-Agent Generator)和双代理判别器(Dual-Agent Discriminator)。姿态归一化模型模块(Pose Normalization Module, PNM)被嵌入到网络中对人脸的姿态进行归一化。

图1. MDFR模型的结构,包括双代理生成器,姿态归一化模型,以及双代理判别器。

1)双代理生成器

双代理生成器包含一个人脸复原子网络(Face Restoration sub-Net, FRN)和一个人脸转正子网络(Face Frontalization sub-Net, FFN)。FRN网络的作用是将低质量人脸图像重建为高质量人脸图像,而FFN网络将FRN生成的侧脸图像进行转正。其中每个子网络均包含一个编码器和解码器,前者用来将输入映射到特征空间,而后者主要将编码后的特征重建为相应的目标人脸图像。两个子网络具有相同的网络结构,但是输入有所不同。FRN的编码器E1对输入的人脸图像进行编码,随后解码器F1对编码器的特征进行解码。FFN的解码器F2的输入除了人脸的编码特征外,还包含人脸两种姿态的编码残差,如图2所示。

图2生成网络的网络结构

2)姿态归一化模块

作者设计了一个姿态归一化模块(PNM)对姿态进行归一化。PNM提供了标准的、并且尺度统一的真实正面姿态来来引导人脸转正。基于3D形变模型(3D Morphable Model, 3DMM),二维人脸图像对应的三维顶点可以通过人脸正交基线性加权相加而得到:

通过尺度正交映射将三维人脸顶点映射到二维图像平面,二维侧脸人脸图像可以表示为:

其中,参数P(r)是相应的旋转矩阵,t为平移向量。当移去旋转矩阵和平移向量后,归一化后真实转正的人脸密集二维坐标可以表述为:

在文章中,作者使用3D人脸转正方法2DAL从一张给定的二维人脸图像中获取人脸密集坐标,最后选取18个常用的关键点来生成相应的高斯热力图(Gaussian Heatmaps)。

3)双代理先验引导判别器

在人脸超分辨率领域使用的判别损失能够很好的提高重建人脸的真实度。因此,在本文中,作者在判别器中加入两种额外的先验信息:目标人脸的landmarks以及正脸的身份特征图,使得生成的人脸不仅能够获得目标姿态,还具有真实的身份信息。对应的判别器分别为PCD(Pose Conditioned Discriminator)以及ICD(Identity Conditioned Discriminator)。在实现过程中,作者将两种先验信息分别作用到输入判别器中引导人脸的生成,然后再输入到相应的判别器中进行判别损失的求解。PCD和ICD不仅可以区分真实人脸和生成的人脸,同时可以学习到真实人脸和生成人脸的姿态和身份差异。

4)网络训练

网络的训练主要分为两个阶段:Separate Training和TI Training。

Separate Training:文章首先分别训练FRN和FFN两个子网络,两个训练过程分别简写为FRN-S和FFN-S。FRN-S训练过程中所用到的损失函数如下:

身份信息损失:

重建像素损失:

总的损失:

FFN-S训练过程中所用到的损失函数如下

转正损失:

条件对抗损失:

总的损失:

Task-Integrated (TI) training在FRN和FFN完成了相应的分开训练后,作者在预训练模型的基础上进行整合训练。在这个阶段,作者使用FFN模型的输出作为ground-truth来训练FRN。同时,使用PNM归一化后的真实转正面部landmarks来引导FFN中人脸的转正。为了生成更好的人脸效果,在这一阶段作者还使用了特征对齐损失(Feature Alignment Loss, FA),具体的定义如下:

整体的训练损失函数为:

4、实验结果

作者首先探索了不同的网络结构和损失函数的组合来观察FFN-S和FRN-TI相应部分对人脸生成的影响,实验结果如图3所示。

图3. 消融实验在Multi-PIE数据库上的对比结果。

同时,表1展示了MDFR的不同变异体对不同姿态人脸的rank-1识别率。在所有的实验模型中,FFN-S和FRN-TI均获得了最好的精度。

图4. 不同方法在多质量因素影响下的人脸复原效果

作者在多重低质量因素影响的人脸图像上进行相应的验证,包括低分辨率、不良光照、噪声以及模糊。实验表明,文章提到的方法不仅可以充分应对多种低质量因子,而且都可以生成相应的高质量人脸图像。图4展示了不同方法在多重低质量因素影响下的人脸复原效果。可以看出不同于之前只能处理单一的任务的方法,文中所提出的方法既可以对人脸进行转正也可以进行高质量复原,且取得了最好的视觉效果。

作者简介

涂晓光,中国民用航空飞行学院讲师,从事人工智能、深度学习、计算机视觉等领域的研究工作。2013-2020年在电子科技大学攻读硕士和博士学位,2018年作为国家公派联合培养博士生前往新加坡国立大学学习交流一年半, 师从亚太地区杰出青年科学家冯佳时教授, 并于2019年至2020年相继在PENSEES新加坡研究院和字节跳动人工智能实验室担任算法实习研究员。目前,以第一作者在IEEE-TCSVT, IEEE-TMM, ACM-TIST等世界权威期刊上发表论文11篇, Google scholar引用200多次,第一作者发表SCI期刊总影响因子超过30,曾担任模式识别领域顶级期刊“Pattern Recognition”特邀审稿人。2020年12月份博士毕业,2021年3月以高层次人才引进身份入职中国民用航空飞行学院。

赵健,2012年获得北京航空航天大学学士学位,2014年获得国防科技大学硕士学位,博士就读于新加坡国立大学电子与计算机工程系,师从冯佳时教授和新加坡工程院院士、ACM/IEEE/IAPR Fellow颜水成教授,2019年获得博士学位,现为军事科学院助理研究员,入选中国科协2020-2022年度青年人才托举工程、北京市科协2021-2023年度青年人才托举工程,担任视觉与学习青年学者研讨会VALSE资深领域主席、中国图象图形学学会视觉大数据专业委员会CSIG-BVD委员、北京图象图形学学会BSIG第七届理事会理事。主要研究领域为人工智能、深度学习、模式识别、计算机视觉与多媒体分析。目前,共主持/参与科技委项目3项(序1/3/5),主持国家自然科学基金青年科学基金项目1项,参与军科院长基金项目1项(序3)。近5年已受理国家专利6项(序1),发表高水平学术论文40余篇,单篇影响因子最高16.389,其中,以第一作者发表CCF A类论文11篇(含2篇T-PAMI、2篇IJCV)。曾作为第一作者获得2021 USERN (Universal Scientific Education and Research Network) Prize提名,新加坡模式识别与机器智能协会PREMIA 2019 Lee Hwee Kuan奖(金奖),CCF A类会议、国际多媒体领域顶级会议ACM MM 2018最佳学生论文奖,CCF A类国际会议ICCV 2017 MS-Celeb-1M人脸识别竞赛Hard Set/Random Set/Low-Shot Learning全部任务全球冠军,CCF A类国际会议CVPR 2017 L.I.P竞赛人物解析与人物姿态估计全部任务全球亚军,美国国家标准与技术研究院NIST 2017 IJB-A无约束人脸识别竞赛人脸验证与人脸鉴别全部任务全球冠军。担任国家自然科学基金委评议专家,担任T-PAMI、IJCV、NeurIPS(NeurIPS 2018前30%最佳审稿人)、CVPR等本领域主流国际期刊/会议的受邀审稿人。

冯佳时,现任新加坡国立大学电子与计算机工程系助理教授,机器学习与视觉实验室负责人。

中国科学技术大学自动化系学士,新加坡国立大学电子与计算机工程系博士。2014-2015年在加州大学伯克利分校人工智能实验室从事博士后研究。现研究方向为图像识别、深度学习及面向大数据的鲁棒机器学习。冯佳时博士曾获ICCV’2015 TASK-CV最佳论文奖,2012年ACM多媒体会议最佳技术演示奖。担任ICMR 2017技术委员会主席,JMLR, IEEE TPAMI, TIP, TMM, TCSVT, TNNLS及 CVPR, ICCV, ECCV, ICML, NIPS, AAAI, IJCAI等期刊、会议审稿人。

理论人脸识别
1
暂无评论
暂无评论~