CVPR 2020 | HFE: 多层级的特征构建方式解读

在 CVPR 2020 上,商汤城市计算团队提出了一个针对属性分类的多层次特征的构建方式,即利用身份(ID)信息辅助构建多层次的特征,该工作为特征构建方式提供了新的思路。相比于已有的属性分类方法,HFE 在特征表示和性能指标上均有显著优势。

论文标题:Hierarchical Feature Embedding for Attribute Recognition

动机

直接使用 Cross Entropy Loss 训练的卷积神经网络分类,只是把同一类的特征聚拢到一起,对于类内没有约束。我们在带有 ID 信息的属性数据集上进行实验,只使用属性标签进行分类时,发现类内分布非常杂乱,同一个 ID 的图片会分散在类内的各个位置。这说明只使用属性标签训练的分类网络,无法正确的将 ID 相同的图片在特征空间上映射到足够近的距离,因此其特征表达不够稳定,容易受到场景变化等因素的干扰,在输入发生变化时,特征会发生比较大的偏移,增加了分类错误的可能性。我们的方法在此处做出改进,使用 ID 和属性标签作为两个层级的监督,在特征空间里构建多层级的逻辑结构,以提高模型的表征能力。
该工作的研究动机在于:

1. 利用身份信息来限制同一个人的不同场景、不同角度、不同姿态的样本特征聚集地更紧密,使特征对于场景、角度、姿态等的变化更鲁棒。
2. 通过身份的限制,属于同一个 ID 的简单样本可以把本来难学的困难样本在特征空间上拉近,从而使困难样本更容易学习。
3. 利用身份的信息来构造层次性的属性特征空间,避免把两种特征简单地嵌入到同一特征空间,而是统一到属性的特征空间,使构造的特征空间更合理。
如下图所示:

整体框架

我们提的方法整体框架如下图,主要由一个骨干网络,加多个属性分支组成。共享的骨干网络用来学习所有属性的共同特征,而每个单独的属性分支用来学习各个属性各自的特征。

对于损失函数,首先我们沿用传统的方法,采用交叉熵(Cross Entropy, CE)损失函数进行属性分类,表示为 LCE

在 CE 基础上结合我们设计的多层次特征损失函数(LHFE),总的损失函数可以写成如下所示。这里w 表示权重

多层次特征损失函数

多层次特征损失函数主要由两个三元组组成,一个是传统的类间三元组(Linter),如下。

为了形成细粒度的多层次的特征空间,我们利用身份信息构建类内三元组(Lintra),如下。

结合上述的 Linter 和 Lintra,我们可以同时维护类间和类内的特征空间。如下图所示,通过五元组的限制,我们可以维护一个多层级的相对距离,从而达到构建层次化的特征空间的目的。

绝对边界正则项

上述的损失函数虽然能同时维护类间特征和类内特征,但是只考虑了相对距离。从绝对距离角度上看,并不能保证在整个训练集中,锚样本和正样本的距离都小于锚样本和负样本的距离。为此,我们设计了绝对边界正则项(Absolute Boundary Regularization,ABR)如下:

因此我们的多层次特征损失函数(LHFE)由上述Linter、Lintra和 LBR 三项组成。

动态权重

在训练初始的时候得到的特征空间并不可靠,由于五元组的选择依赖于特征空间,如果一开始就用较大的权重,可能会带来噪音。所以我们为上述损失函数设计了一个动态权重,通过权重动态增大,使特征空间慢慢地从原始的状态转向层次化的状态。

这里 T 表示整个训练的迭代次数,而 iter 表示当前的迭代次数。w是一个预先设置好的常数。

实验结果

本文使用了两个行人属性数据集:Market 1501[1] 和 Duke[2],和一个人脸属性数据集:CelebA[3],进行了实验。在三个数据集上的实验结果表明,HFE 比现有的最先进的方法更具竞争力,如下表所示:

为了进一步分析各个组件的效果,我们在 market 1501 上做了详尽的对比实验,如下表所示,可以看到每个部分都是有各自的提升效果的。

为了直观地观察特征空间的变化,我们对一个属性在不同 loss 下的特征空间进行了可视化,如下图所示。可以看到,每增加一个组件,类内的特征都更紧密,而类间的特征距离更远,界限更清晰。而且 HFE 确实可以形成更细粒度的类内特征空间,同时让类内更紧凑,类间更清晰,满足我们的预期。

下图为属性可视效果对比,可以看出,对于属性比较清晰可见时,三个方法都能判断正确;而当遮挡发生或图像模糊时,CE 和 APR[4] 出现错误预测的概率较高,HFE 却还是能预测正确。 

传送门

论文地址:
https://arxiv.org/abs/2005.11576
欢迎感兴趣的朋友阅读和交流。

References
[1] Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jing- dong Wang, and Qi Tian. Scalable person re-identification: A benchmark. In Proceedings of the IEEE international con- ference on computer vision, pages 1116–1124, 2015.
[2] ZhedongZheng,LiangZheng,andYiYang.Unlabeledsam- ples generated by gan improve the person re-identification baseline in vitro. In Proceedings of the IEEE International Conference on Computer Vision, pages 3754–3762, 2017.
[3] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In Proceedings of the IEEE international conference on computer vision, pages 3730–3738, 2015.
[4] Yutian Lin, Liang Zheng, Zhedong Zheng, Yu Wu, Zhi- lan Hu, Chenggang Yan, and Yi Yang. Improving person re-identification by attribute and identity learning. Pattern Recognition, 2019.

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论CVPR 2020
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

推荐文章
暂无评论
暂无评论~