Debayan Deb等作者魔王、杜伟参与

寻找走失多年的儿童,这个算法让父母看到孩子长大的模样

寻找失踪儿童何其难!小孩失踪时还很小,找到却可能已过了数年甚至十几年。如何判断找回人员的身份,让他们回家?这是亟待解决的难题。

近日,密歇根州立大学的研究者提出一个「增龄」模块,将失踪儿童原始图像中的深度人脸特征「老化」(或者说「增龄」),从而帮助匹配原来的图像和数年后的图像。

论文链接:https://arxiv.org/pdf/1911.07538.pdf

引言

人口贩卖是世界各国普遍面临的一项严重社会问题。根据联合国儿童基金会(UNICEF)和机构间打击贩运人口协调小组(ICAT)的数据,全球被贩卖人口中儿童比例高达 28%。据 2012 年《华尔街日报》报道,每年全球范围内约有 800 万儿童失踪。与父母分离的儿童,如难民和移民,最易被贩卖。

截至 2018 年,18 岁以下青少年占美国 NCIC 报告中登记在案失踪人口的 34.8%。而失踪儿童的实际数量要远远高于官方统计数据:出于对人口贩卖者的恐惧、缺少信息、对当局缺乏信任等原因,上报的儿童失踪案件少于实际情况。

人脸识别可能是找回失踪儿童任务中最有前景的生物识别技术,因为失踪儿童的父母亲属拥有其人脸照片的概率远高于其他生物模态,如指纹或虹膜信息。而自动人脸识别(Automated Face Recognition,AFR)系统已经能够达到很高的识别率,它们可在儿童年龄增长有限的情况下识别儿童。

人脸会随着时间发生很多变化,如皮肤纹理、重量、面部毛发等(见下图 1)。

图 1:Dakota Fanning(第一行)和 David Gallagher(第二行)的不同年龄照片。

多项研究分析了人脸随时间的变化对 AFR 性能的影响,见下表 2:

这些研究得出了两个重要结论:

  1. 随着后续图像与原始图像的时间间隔变长,系统识别人脸的性能下降;

  2. 相较于年龄较大的人,AFR 系统对年龄较小的个体性能下降更加迅速。

下图 3 展示了,当前最优人脸匹配器在匹配失踪儿童图像和较长时间间隔后的图像时失败率较高。因此,增强 AFR 系统的纵向性能非常必要,尤其是对于在年龄较小时失踪的孩童。

图 3:rank-1 识别准确率(%)热图。a 未使用本研究提出的模块修改 FaceNet 特征,而 b 利用提出模块修改了 FaceNet 特征(颜色越深表示准确率越高)。图中横轴表示儿童年龄时间差,纵轴表示失踪儿童图像中的年龄。

定位失踪儿童类似于人脸识别中的识别(开集或闭集),我们从失踪儿童照片库中进行搜索,以确定找回的较大年龄孩童的身份。找回孩童照片与失踪孩童照片之间时间间隔越长,搜索任务就越难。之前对年龄变化下的人脸识别(包括成年人和孩童)的研究主要探索了生成和判别式模型。但是,当前最优人脸识别系统仍然难以确定在较大年龄找回的孩童的身份。

该研究提出「增龄」模块,它学习特征空间中的投影,并可作为任意现有人脸匹配器的 wrapper。该模块还能够基于个体年龄和指定目标年龄合成增龄后特征所对应的人脸图像。

对于时间间隔大于 10 年的情况(即失踪儿童在 10 年或更久之后才被找到),该研究提出的增龄模块将 FaceNet 在闭集上的识别准确率从 40% 增加到 49.56%,将 CosFace 在童星数据集 ITWCC 上的识别准确率从 56.88% 提升到 61.25%。该方法在公开增龄数据集 FG-NET 上的 rank-1 识别率超越当前最优方法,实现了从 94.91% 到 95.91% 的提升,该方法在 CACD-VS 数据集上同样超越了 SOTA 方法,将识别率从 99.50% 提升到 99.58%。这些结果表明,使人脸特征「增龄」能够增强识别找回儿童是否为贩卖诱拐受害者的几率。

使深度人脸特征「增龄」

直接操纵人脸图像中的像素可能无法在特征空间中保留儿童的身份信息。因此,该研究提出一种增龄模块,学习低维特征空间中的深度特征投影,从而直接改进人脸识别系统识别较长时间间隔儿童图像的准确率(见下图 6)。

图 6:该研究提出的深度特征增龄方法图示。该增龄模块可以将人脸特征向量增加到任意指定年龄。

激活

为了分析「增龄」对儿童人脸匹配性能的影响,我们令 S = {S^t}^T_t=0,T 是数据集中所有可能年龄的集合。这里,,其中 S^t 是数据集中年龄为 t 的所有失踪儿童图像的集合(共 N_t 张)。使用现有的人脸匹配器(如 FaceNet),我们可以提取出图像 x^t_i 的深度特征表示 φ(x^t_i )。

研究者首先计算 S 中所有年龄的平均人脸表示。对于年龄 t,其平均人脸特征可表示为:

研究者从 UTKFace 数据集中抽取平均人脸特征。为了分离年龄变化引起的人脸嵌入区别,研究者将一个属性向量定义为在年龄为 t_1 和 t_2 时,任意两个平均人脸特征的区别

其中 t_1 << t_2。与深度特征内插类似,研究者将年龄 t_1 的儿童人脸图像 x^t1_i 映射至特征空间中的点 φ(x^t1_i),并通过

将其沿着属性向量 ¯δ^t1,t2 线性移动。

下图 4 展示了 5 岁和 12 岁孩童人脸特征的解码图像样本,它们沿着流形 (α = 1) 线性移动。

这个实验表明:

  • 人脸嵌入可捕捉到增龄所需的年龄信息;

  • 增龄可以通过在特征空间中执行线性内插来实现。

学习特征增龄

完美的人脸特征空间 Z 应该仅编码身份显著特征(identity-salient feature),年龄相关组件应与身份相关特征分离。但事实上,人脸匹配器自然而然地在潜在空间中编码年龄相关信息,以增强判别能力。该研究旨在开发一种增龄方法,能够在任意人脸匹配器的特征空间中学习投影(见下图 5)。

预训练人脸匹配器将人脸图像 x 嵌入 d 维欧几里得空间 φ(x) ∈ R^d 中。假设有图像对 (x^t_1_i , x^t_2_j ) 组成的训练集,其中 x_i 和 x_j 分别是同一个人在年龄为 t_1 和 t_2 时的照片。此处,x_i ∈ X,t_a ∈ A,X 是人脸图像域,A 是所有可能年龄的集合。研究者想要学习一个模型,该模型以人脸特征向量 φ^t_1 为输入,为期望年龄 t_2 合成人脸嵌入,从而在年龄相关组件与 φ^t_2 类似的条件下,保留个体身份信息。

该研究提出一种编码器-解码器架构,可在特征空间中自动学习增龄。编码器 E : (R^d , A, A) → R^k 是一组全连接线性层的堆叠,它们可将特征向量映射至 k 维潜在表示 E(φ(x^t1), t_1, t_2)。编码器基于输入特征 φ(x^t_1)、原始图像拍摄时的年龄 t_1 和增龄后的期望年龄 t_2。解码器 D : R^k → R^d 也是一组全连接线性层的堆叠,它们基于原始人脸特征 φ(x^t_1) 的潜在表示 E(φ(x^t_1 ), t_1, t_2) 将其合成为增龄版本。为了确保保存身份显著特征和年龄增加到期望年龄的合成特征,研究者使用均方差 (MSE) 损失来训练增龄模块:

其中 P 是所有原始对的集合。模型训练完成后,增龄模块可以将人脸特征推进至期望年龄。

实验

为评估模型对儿童人脸图像的性能,研究者使用了两个数据集(见下表 1):

其中,Children』s Face Aging (CFA) 数据集包含年龄范围为 2 − 20 岁的 9,196 名青少年儿童每年的入学照,共计 25,180 张。

In The Wild Child Celebrity (ITWCC) 数据集包含 745 个童星的 7,990 张图像。

下表 3 展示了所有方法的平均差和标准差:

从上表中可以看出,该增龄方法能够提高 FaceNet 和 CosFace 的搜索准确率。此外,在特征增龄模块的帮助下,开源人脸匹配器 CosFace 的性能超过了 COTS。

下图 8a 和 8b 展示了模型在儿童和成年人图像上的性能。该研究提出的模型能够改进模型对所有存在间间隔的人脸图像进行匹配,而当时间间隔增大时其贡献尤甚。

下图 11 展示了在不使用该研究提出的深度特征增龄模块时,CosFace 从所有图像中检索到了错误的儿童。

为了评估增龄模块的泛化性能,研究者在 CFA 和 ITWCC 数据集上进行训练,并在公开可用增龄数据集 FG-NET 上进行性能基准测试。研究者按照标准的留一法进行操作,结果见下表 4。

实验表明,该研究提出的特征增龄模块可以提升 CosFace 的性能。研究者还在相同的训练集上微调了 CosFace 的最后一层,但是准确率下降明确表明,移动到新的潜在空间可以展示出原始特征。该增龄模块可以提升模型性能,同时仍然在原始匹配器运行的相同特征空间中。

此外,研究者还在成年人增龄数据集 CACD-VS13 上进行了性能基准测试。但是,与之前的研究 [28, 31, 4] 不同,研究者并未在 CACD-VS 数据集上微调模型。

下表 5 展示了,该研究提出的特征增龄模块提升了 CosFace 在 CACD-VS 数据集上的性能,这表明该模型对成年人增龄后的人脸识别也有作用。

理论
2
暂无评论
暂无评论~