张晓涵作者西安交通大学本科生学校计算机视觉/行人重识别研究方向

AAAI 2020 | XIV-ReID:基于X模态的跨模态行人重识别

论文标题:Infrared-Visible Cross-Modal Person Re-Identification with an X Modality

论文来源:AAAI 2020

论文链接:https://aaai.org/Papers/AAAI/2020GB/AAAI-LiD.870.pdf

代码链接:https://github.com/littlejiumi/XIVReID

概述

我们关注的任务是红外(infrared)-可见光(visible)跨模态行人重识别(IV-ReID)。此任务难点在于可见光图像与红外图像之间显著的 gap,因此,我们引入了一个辅助的 X modality,并将 infrared-visible 双模态任务重新表述为 X-Infrared-Visible 三模态学习任务,即 XIV 学习框架。

该框架由两个主要部分组成:一个是通过自监督学习生成 X 模态的轻量型 X 模态生成器,一个是权重共享的 XIV 跨模态特征学习器,并设计了跨模态的约束。

在X模态的辅助下将可见光与红外光图像连接起来,使跨模态的图像更容易匹配,得到更好的效果,见图1。

▲ 图1. 引入X Modality使得跨模态匹配更容易

我们在两个具有挑战性的数据集 SYSU-MM01 和 RegDB 上进行了大量的实验,实验结果表明,与最先进的方法相比,我们的方法在 rank 1 和 mAP 方面获得了超过 7% 的绝对增益。

方法

▲ 图2.XIV-ReID学习框架

2.1 问题定义

我们用  表示跨模态 ReID 数据集。其中训练集  包括对应于 C 个类别的 N 张图像;测试集包括   和   。用 V, I, X 分别代表可见光图像、红外光图像和学习的 X 模态图像。f 表示深度特征学习器,g 表示轻量级 X 模态生成器,则 X=g(V)。
测试时,根据  中的红外光图像 ,利用 X 模态辅助寻找   中最接近的可见光图像 :

其中 D(·) 代表欧氏距离。

2.2 X模态图像

轻量级 X 模态生成器以可见光图像作为输入,网络包括两个 1×1 的卷积层和一个 ReLU 激活层,将可见光图像转换为单通道图像,然后重构成三通道图像。第一个 1×1 的卷积层将原始的三通道可见光图像映射为单通道图像,之后传入 ReLU 激活层,然后使用另一个 1×1 的卷积层将单通道图像映射为三通道的 X 模态图像。

与其他使用辅助结构的方法相比,如 GANs,我们实现了一个更轻量级和更高效的网络,且比 GANs 更容易优化。

2.3 权重共享特征学习器

特征学习器以 X 模态、红外光和可见光图像三种模式作为输入,在一个共同的特征空间中学习跨模态信息,三种模式权重共享。通过联合考虑红外- X 和红外-可见交叉模态差别,X 能够从可见光图像和红外图像中学习。在训练时,这三种模态同时进行优化。

2.4 模态约束

我们提出一种可见光、红外光、X 模态联合的模态约束,这三种模态规模均为 M。这样,跨模态约束(cross modality gap, CMG) 可以计算为:

红外图像和学习得到的 X 模态图像的约束定义为:

其中:

是阈值参数

此外,对于每一种模态,我们还利用模态各自约束(modality respective gap, MRG) 来帮助模型收敛:。具体来说,应用交叉熵损失和一个改进的三重损失来优化特征学习。以红外图像为例:

其中:

2.5 优化

我们提出的 XIV ReID 学习框架可以直接端到端优化:

这里的  是平衡两种约束的超参数

实验

3.1 实验设置

  • 数据集:SYSU-MM01 和 RegDB
  • 评价指标:累计匹配特征(CMC)曲线和平均精度(mAP)
  • 实验细节:见原文

3.2 结果比较

▲表1.RegDB和SYSU-MM01数据集上与当前最佳IV-ReID方法比较

▲表2.在SYSU-MM01数据集上与cmGAN,D2RL方法比较

▲表3.在SYSU-MM01数据集上与AlignGAN方法比较

▲表4.SYSU-MM01数据集的消融研究

3.3 结果讨论

我们统计分析了 SYSU-MM01 和 RegDB 数据集训练图像上图像内部所有像素的平均单色通道强度,见下图。可见光图像的三种颜色通道的统计分布是相似的;而 X 模态图像的“R”通道有更高的强度。

▲图3.SYSU-MM01和RegDB的训练集上,一幅图像中所有像素的平均单颜色通道的强度直方图

从电磁辐射的角度看,与可见光图像相比,X 模态图像显得更“红”,因而具有更长的波长;相反地,与红外图像相比,X 模态图像看起来更丰富多彩,因此波长更短。因此,该方法最终获得了一种介于可见光和红外光之间的新模态。使用 X 模态学习的特征更容易进行跨模态匹配。

结论

本文研究了跨模态行人重识别问题。为了减少红外线和可见光图像之间固有的模态差异,我们提出了一个新的 X-红外线-可见光(XIV)跨模态学习框架。

具体地,我们设计了一个轻量级的生成器来从可见光图像和红外图像中吸取知识,并输出 X 模态图像;在此基础上,提出了一种基于权值共享的深度特征学习器,以联合的方式提取跨模态特征和分类输出。

我们采用端到端的方式,直接利用所设计的模态各自的模态约束(MRG)和跨模态约束(CMG)来实现生成器和特征学习器的优化。在两种公开的红外可见跨模态 ReID 数据集 SYSU-MM01 和 RegDB 上的实验结果证明了所提出的三模态跨模态学习方法的优越性。

中文文字:张晓涵、洪晓鹏

文章引用 bibtex 如下:

@inproceedings{xiv_reid20,
author={Li, Diangang and Wei, Xing and Hong, Xiaopeng and Gong, Yihong},
title={Infrared-Visible Cross-Modal Person Re-Identification with an X Modality},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
month = {February},
year={2020}
}

若对文中方法感兴趣,欢迎致信:

洪晓鹏老师 hongxiaopeng@mail.xjtu.edu.cn 

和魏星老师 xingxjtu@gmail.com

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论行人重识别AAAI 2020
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~