■ 论文 | Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
■ 链接 | https://www.paperweekly.site/papers/1557
■ 作者 | Longhui Wei / Shiliang Zhang / Wen Gao / Qi Tian
摘要
本文提出了一种针对于 ReID 的生成对抗网络 PTGAN,可以实现不同 ReID 数据集的行人图片迁移,在保证行人本体前景不变的情况下,将背景转换成期望的数据集 style。
另外本文还提出一个大型的 ReID 数据集 MSMT17,这个数据集包括多个时间段多个场景,包括室内和室外场景,是一个非常有挑战的数据集。
论文用 PTGAN 来缩小不同数据集间的 domain gap,并在新提出的 MSMT17 这个大数据集和其他一些公开的小数据集上做了实验。
MSMT17 数据集
MSMT17 是一个大型的 ReID 数据集,现在的一些公开数据集的准确度已经被刷得很高,这个数据集的提出进一步延续了 ReID 的发展。不过数据集目前还有公开,等待论文接收后数据集可以公开。
MSMT17 数据集有以下几个特性:
数据采集时长约为 180 小时
总共有 15 个相机,其中 12 个室外相机,3 个室内相机
行人框由 Faster RCNN 机标完成
最后总共有 4101 个行人的 126441 个 bounding boxes
请点击此处输入图片描述
△ MSMT17 数据集和已有 ReID 数据集的对比
请点击此处输入图片描述
△ MSMT17 数据集的图片和其他数据集的直观对比
PTGAN
Person Transfer GAN(PTGAN)是作者提出的一个针对于 ReID 问题的 GAN。这个 GAN 最大的特点就是在尽可能保证行人前景不变的前提下实现背景 domain 的迁移。
首先 PTGAN 网络的损失函数包括两部分:
请点击此处输入图片描述
其中 LStyle 代表生成的风格损失,或者说 domain 损失,就是生成的图像是否像新的数据集风格。LID 代表生成图像的 ID 损失,就是生成的图像是否和原始图像是同一个人。λ1 是平衡两个损失的权重。下面的关键就是看这两个损失怎么定义。
首先 PTGAN 的基础是 CycleGAN,所以 loss 也和正常的 CycleGAN 的 loss 差不多。首先第一部分是 LStyle,这个就是标准的 CycleGAN 的判别 loss。
请点击此处输入图片描述
以上几部分都是正常的 CycleGAN 的损失,保证生成的图片和期望的数据集的 domain 是一样的。
论文的另外一个改进的地方就是 LID。为了保证图片迁移过程中前景不变,先用 PSPNet 对图片进行了一个前景分割,得到一个 mask 区域。
传统的 CycleGAN 并不是用于 ReID 任务,因此也不需要保证前景物体的 ID 信息不变,这样的结果就是前景可能模糊之类的质量很差,更糟糕的现象是行人的外观可能改变,比如衣服颜色发生了改变,这是 ReID 任务非常不希望见到的。
为了解决这个问题,论文提出 LID 损失,用 PSPNet 提取的前景,这个前景就是一个 mask,最后 ID 损失为:
请点击此处输入图片描述
其中 M(a) 和 M(b) 是两个分割出来的前景 mask,ID loss 将会约束行人前景在迁移过程中尽可能的保持不变。最后转换的效果如下图所示:
请点击此处输入图片描述
可以看出,直观上和传统的 CycleGAN 相比能够更好的保证行人的 ID 信息。
结果
请点击此处输入图片描述
实验结果如上表,虽然论文没有用特别复杂的网络来训练,但是将另外一个数据集通过 PTGAN 迁移到 MSMT 上都能增加 MSMT17 数据集上的 performance。并且从准确度上看 MSMT17 还是一个非常难的数据集。