孙裕道作者北京邮电大学博士生学校GAN图像生成、情绪对抗样本生成研究方向

论文盘点:性别年龄分类器详解

年龄和性别在社会交往中起着基础性的作用。随着社交平台和社交媒体的兴起,自动年龄和性别分类已经成为越来越多应用程序的相关内容。本文会盘点出近几年来关于深度年龄和性别识别的优质论文。

一、CVPR 2015

论文标题:Age and Gender Classification using Convolutional Neural Networks

论文来源:CVPR 2015

论文链接:https://www.sci-hub.ren/10.1109/CVPRW.2015.7301352

代码链接:https://github.com/GilLevi/AgeGenderDeepLearning

1.1 模型介绍

在该论文是第一篇将深度学习引入到年龄和性别的分类任务中,作者证明通过使用深卷积神经网络的学习表示,可以显著提高年龄和性别的分类任务的性能。因此,该论文提出了一个卷积网络架构,即使在学习数据量有限的情况下也可以使用。

从社交图像库收集一个大的、带标签的图像训练集,用于年龄和性别估计,需要访问图像中出现的对象的个人信息,这些信息通常是私有的,或者手动标记既繁琐又耗时。因此,用于从真实社会图像中估计年龄和性别的数据集在大小上相对有限。当深度学习的方法应用于如此小的图像采集时,过拟合是一个常见的问题。

如下图所示,为作者提出的一个简单的 CNN 网络架构,该网络包含三个卷积层,每个卷积层后面都有一个校正的线性运算和池化层。前两层使用对参数进行正则化操作。

第一卷积层包含 96个7×7 像素的卷积核,第二个卷积层包含 256 个 5×5 像素的卷积核,第三层和最后一层包含 384 个 3×3 像素的卷积核。最后,添加两个全连接层,每个层包含 512 个神经元

在训练网络的过程中,作者还应用了两种额外的方法来进一步限制过度拟合的风险。第一个是 dropout 学习(即随机设置网络神经元的输出值为零)。该网络包括两个 dropout 层,丢失率为 0.5(将神经元的输出值设为零的几率为 50%)。

第二个是使用数据增强技术,从 256×256 的输入图像中随机抽取 227×227 个像素,并在每个前后训练过程中随机镜像。这与使用的多种裁剪和镜像变体类似。

1.2 实验结果

作者使用 Adience 数据集进行基准测试 CNN 设计的准确性,该数据集是为年龄和性别分类而设计的。Adience 集包括从智能手机设备自动上传到 Flickr 的图像。

因为这些图片是在没有事先人工过滤的情况下上传的,就像媒体网页或社交网站上的典型情况一样。整个 Adience 收藏包括 2284 个受试者的大约 26K 张图片。如下表所示列出了收集到的不同性别和年龄组的分类情况。

下表分别给出了性别和年龄分类结果,可以看出论文中提出的方法的准确率要比其它方法更高。

下图为性别错误分类。第一行:女性被误认为是男性。最下面一行:男性被误认为是女性。

下图为年龄错误分类。第一行:年长的被试被误认为是年轻人。最下面一行:年轻人被误认为是老年人。

由上面两张图是系统所犯的许多错误都是由于某些 Adience 基准图像的观看条件极为困难所致。最值得注意的是由模糊或低分辨率和遮挡(尤其是浓妆)引起的错误。性别估计错误也经常发生在婴儿或非常年幼的儿童的图像中,因为这些图像还没有明显的性别属性。

二、IWBF 2018

论文标题:Age and Gender Classification from Ear Images

论文来源:IWBF 2018

论文链接:https://arxiv.org/abs/1806.05742

2.1 论文贡献

该论文是一篇有趣文章,研究是从耳朵图像进行年龄和性别的分类。作者采用卷积神经网络模型 AlexNet、VGG-16、GoogLeNet 和 squezenet。在一个大规模的耳朵数据集上进行了训练,分类器通过人耳对性别和年龄进行分类。该论文的贡献分为三个部分:

  • 对于几何特征,作者在耳朵上使用了 8 个标志点,并从中衍生出 16 个特征。

  • 对于基于外观的方法,作者使用了一个大型 ear 数据集,利用卷积神经网络模型来对年龄和性别进行分类。

  • 与之前的工作相比,作者在性别分类方面取得了优异的成绩。

2.2 模型介绍

论文使用几何特征和在这些特征上使用的分类器,以及基于外观的表示进行分类。

2.2.1 几何特征

下图为人耳标志位和相关的几何特征。由于每个几何特征具有不同的取值范围,为了使其规范化,作者在训练集中计算了每个特征的均值和标准差。然后并对它们进行归一化,使它们具有零均值和单位方差。在 16 个耳朵的几何特征中选择出重要的6个。

2.2.2 基于外观的表示与分类

本研究中使用的第一个深度卷积神经网络结构是 AlexNet。AlexNet 包含五个卷积层和三个全连接层。在网络训练中,为了防止过度拟合,采用了 dropout 方法。第二个深度卷积神经网络结构是 VGG-16。

VGG-16 包含 16 个卷积层,3 个全连接层和在卷积层之后的 softmax 分类器。第三个深度卷积神经网络结构是 GoogleNet,它是一个更深层次的网络,包含 22 层。它基于初始模块,主要是几个初始模块的串联。

inception 模块包含几个不同大小的卷积核。将不同的卷积核输出组合起来。最后一个 CNN 架构是 squezenet,它提出了一种减少参数数量和模型大小的新方法。使用 1×1 过滤器,而不是 3×3 过滤器。该体系结构还包含剩余连接,以提高反向传播学习的效率。此外,没有全连接层。使用平均池化层,而不是全连接层。

2.3 实验结果

2.3.1 数据集介绍

论文选用的数据集包含 338 个不同对象的面部轮廓图像。这个数据集中的所有受试者都超过18岁。从下图可以看到来自数据集的样本图像。这些受试者分为五个不同的年龄组。这些年龄组分别为 18-28、29-38、39-48、49-58、59-68+。根据几何特征的变化对年龄组进行分类。

2.3.2 性别分类结果

如下表所示为性别分类的结果,第一列为分类器的名称,第二列包含相应的分类精度。为了提醒读者所使用的特性,第二列的括号中包含了这些特性的类型。从表中可以看出,基于外观的方法优于基于几何特征的分类器

2.3.3 年龄组分类结果

如下表所示为年龄组分类的结果,同样的,第一列包含分类器的名称,第二列包含相应的分类精度。我们会发现,基于几何特征的方法和基于外观的方法之间的性能差距很小,基于外观的方法能稍微优越一点。

三、CVPR 2019

论文标题:Multimodal Age and Gender Classification Using Ear and Profile Face Images

论文来源:CVPR 2019

论文链接:https://arxiv.org/abs/1907.10081

3.1 核心思想

在该论文中,作者提出一个多模态深度神经网路的年龄和性别分类框架,输入为一个侧面的脸和一个耳朵的图像。主要目标是通过进一步利用生物特征识别方法:耳朵外观,来提高从侧面人脸图像中提取软生物特征的准确性。轮廓人脸图像包含了丰富的年龄和性别分类信息源。本篇论文的贡献分为以下三个部分:

  • 作者提出了一个多模式年龄和性别分类系统,该系统以侧面人脸和耳朵图像为输入。所提出的系统执行端到端多模式、多任务学习

  • 作者全面探讨了利用多模式输入进行年龄和性别分类的各种方法。并采用了三种不同的数据融合方法。

  • 作者将中心损失和 softmax 损失结合起来训练深度神经网络模型。

3.2 模型介绍

3.2.1 CNN网络和损失函数

在本文中采用了 VGG-16 和 ResNet-50 神经网络结构。在 VGG16 中,有 13 个卷积层和3个全连接层。为防止过度拟合,采用了 dropout 方法。另一个 CNN 模型是 ResNet-50。与 VGG-16 不同,除了 ResNet-50 的输出层外,没有全连接层。在卷积部分和输出层之间存在一个全局池化层。两个网络的输入大小都是 224×224。

作者利用中心损失函数和 softmax 函数来获得更多的鉴别特征。中心损失背后的主要动机是提供更接近相应类中心的特性。测量特征到相关类中心的距离,计算出中心损失。中心损失试图为每个类中心生成更接近的特征,但它不负责提供可分离的特征,因此,softmax 损失对其进行了补充。具体的计算公式如下:

3.2.2 多模态多任务

作者研究了年龄和性别分类的性能,分别使用耳朵和侧面人脸图像,作为单峰系统,并结合作为一个多模式,多任务系统。对于多模式、多任务年龄和性别分类总损失计算,作者结合了年龄和性别预测的所有损失。具体的计算公式如下所示:

3.2.3 数据融合

为了实现数据融合,作者采用了三种不同的方法,即空间融合、强度融合和信道融合。在空间融合中,将侧面人脸和耳朵图像并排连接起来。在信道融合中,将图像沿着通道串联起来。在强度融合中,平均化轮廓面部和耳朵图像的像素强度值。具体详情如下图所示:

3.2.4 特征融合

对于基于特征的融合策略,作者训练了两个独立的 CNN 模型,其中一个以侧面人脸图像为输入,另一个以耳朵图像为输入。当这些网络的表示部分(卷积部分)被分开训练时,最后一个卷积层的输出被连接并馈送给分类器部分。具体详情如下图所示:

3.2.5 分数融合

对于基于分数的融合,作者用相关模型对每个侧面人脸图像和耳朵图像进行了测试。然后,对于属于同一主题的每个侧面人脸和耳朵图像,根据不同的置信度计算方法获得概率得分并测量每个模型的置信度。之后,选择了具有最大可信度的模型的预测。具体详情如下图所示:

3.4 实验结果

如下表所示显示了基于不同融合方法的年龄和性别分类结果。第一列分类模型。第二列为融合方法,其中 A、B 和 C 分别对应于数据、特征和分数融合方法。在方法 A 中,A-1、A-2 和 A-3 分别是信道融合、空间融合和强度融合。

在 C 中,C1、C2、C3、C4 和 C5 代表不同的置信度计算方法。实验结果表明,VGG-16 模型采用 A-2 融合方法,即空间融合,取得了最佳的年龄分类效果。

如下表所示,将本文提出的方法与以前的工作进行比较。第一部分是性别分类结果,第二部分是年龄分类结果。根据研究结果,该论文所提出的方法在年龄和性别分类方面取得了最高的分类准确率

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论论文
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

GoogLeNet技术

同样在2014年,谷歌提出了 GoogLeNet(或Inception-v1)。该网络共有22层,且包含了非常高效的Inception模块,它同样没有如同VGG-Net那样大量使用全连接网络,因此参数量非常小。GoogLeNet最大的特点就是使用了Inception模块,它的目的是设计一种具有优良局部拓扑结构的网络,即对输入图像并行地执行多个卷积运算或池化操作,并将所有输出结果拼接为一个非常深的特征图。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

多任务学习技术

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

推荐文章
暂无评论
暂无评论~