编者按:杜甫在《江南逢李龟年》中曾写道:
“正是江南好风景,落花时节又逢君。”
讲的是杜甫与李龟年在江南重逢的场景,其实在计算机视觉领域,在跨摄像头跟踪等场景下,也时常面临着重逢,如果与某一目标重逢时无法准确地识别出其身份,将极大地影响整个系统的跟踪性能。因此,学术界衍生出了行人再识别这一研究方向。
本文中,来自浙江大学的李玺教授,将为大家介绍过去一年中,行人再识别领域所取得的研究进展。
文末提供文中提到参考文献的下载链接。
![](https://image.jiqizhixin.com/uploads/editor/dca99a5d-1102-457c-9a9a-a7e3dc12dd54/1529479853981.png)
![](https://image.jiqizhixin.com/uploads/editor/a0793c06-e40d-43c3-8ad6-fa3b8dfc1082/1529479853769.png)
Person ReID(Person Re-identification)解决的问题是在有多个摄像头的情况下,如何快速识别一个人的ID。这是学术界和工业界都非常关注的问题,也是一个具有挑战性的问题。
![](https://image.jiqizhixin.com/uploads/editor/2ad4f786-1cd3-4052-b9b9-fe960cf82938/1529479854243.png)
这个过程的关键是如何识别和匹配两个人的特征信息和语义结构特点。这个过程主要分为两个步骤。第一个步骤是特征提取,主流方法是CNN。
![](https://image.jiqizhixin.com/uploads/editor/c67cfe0d-4ffd-4d21-a37e-f9476d34f174/1529479853613.png)
![](https://image.jiqizhixin.com/uploads/editor/1b87c971-f36b-4761-9619-2fbe4c3d4ae2/1529479854080.png)
下面从四个比较重要的领域,stripes方法,grids方法,attention方法以及pose方法来回顾一下ReID的进展。
![](https://image.jiqizhixin.com/uploads/editor/88a4ca28-e6d1-407e-92be-36aadbe30617/1529479853860.png)
Stripes角度主要有三个方面的工作:DeepMetric,DeepReID和AlignedReID。
![](https://image.jiqizhixin.com/uploads/editor/ec80717d-ac22-4436-a1f3-d5ae4a87c3b3/1529479854361.png)
![](https://image.jiqizhixin.com/uploads/editor/cb605dc5-e773-49e6-a346-c726d21adc22/1529479855602.png)
DeepReID更复杂,相当于把一个人的结构分成很多小块,每一个小块进行操作。这个方法比较直接,更加细致。缺陷是在识别较为复杂的情况时,或者任何人之间特征区分较差时会受到噪音干扰。
![](https://image.jiqizhixin.com/uploads/editor/44378761-7eed-4770-8403-9c1be2cece36/1529479855321.png)
Stripes效果最好的是王老师的工作AlignedReID,他们通过动态规划计算距离,需要动态匹配的过程,比较复杂,但效果不错。过程分为两个部分,一个是水平的pooling,一个是global pooling,再将两部分融合,得到local distance和global distance,再加入hard sample mining。
![](https://image.jiqizhixin.com/uploads/editor/6bbbc27d-12c1-4ce5-beec-3ce116a08f8f/1529479854432.png)
第二种思路是基于网格的方法,主要有两个工作。
![](https://image.jiqizhixin.com/uploads/editor/c3fc551e-a38e-4562-b452-f5dd2acb74af/1529479855746.png)
首先是发表在CVPR2015的工作IDLA。它将两个图片转化匹配,认为在另一个图像的邻域网格总能找到匹配。在难以匹配的情况下,可以到邻域寻找匹配,所以性能提高很多。
![](https://image.jiqizhixin.com/uploads/editor/a8fcc922-e244-437a-8464-c5307478418a/1529479855448.png)
下一个是我们自己的工作。我们认为之前Pre-define的过程有问题,匹配过程很难适应大场景的变换,所以基于这个不足做了一些改进。
![](https://image.jiqizhixin.com/uploads/editor/331676ae-9f6a-42ee-9ae6-8f6b969e0c47/1529479857152.png)
我们将网络结构转化成一个空间金字塔,在一层匹配不了的情况下,到上一层匹配。
![](https://image.jiqizhixin.com/uploads/editor/c7cb2d51-cd51-4b36-8a00-d5dd48171c2e/1529479857228.png)
第三个是Attention方法,它借助自然语言和图像语言做特征选择。
![](https://image.jiqizhixin.com/uploads/editor/ddb84a53-5c74-4f44-9ac9-b42889d3748b/1529479857605.png)
第一个是我们的工作,也算是比较先锋的工作,发表在ICCV2017。这个工作是简单但是非常有效的。在将一个人进行匹配时不是所有区域都参与到匹配中,我们希望加入attention map,来自动发现适合做re-identify的pattern,再做triplet loss,能够在性能上提高7到8个点。
![](https://image.jiqizhixin.com/uploads/editor/6afe6e64-b2bb-490e-8cc1-5f059dc43fc0/1529479857488.png)
![](https://image.jiqizhixin.com/uploads/editor/a77d9c9d-db1d-4372-bd41-39fc75b56c51/1529479857735.png)
这是我们的实验结果,发现人变大或变小,或者抠图时人抠得不好,仍然能发现ReID的pattern,这是一个很有意义的insight。
![](https://image.jiqizhixin.com/uploads/editor/05d07e73-92f7-424d-9644-b76196b448d1/1529479857358.png)
还有工作基于我们这个思想做了一些改进。比如这项工作HPNet很复杂,有多层attention,attention map有多个layer,还有遗忘skip的功能,需要把很多过程整合起来得到一个结果。
![](https://image.jiqizhixin.com/uploads/editor/1a62386e-7c4c-4a83-8af9-45b65691a0d1/1529479857897.png)
最后HPNet相比我们的模型有进一步的提高,但是在market数据集上比我们的效果差一点。方法越来越复杂,可能在某个数据集上表现越来越好,但是可能泛化能力越来越差。而我们的模型简单,泛化能力强。
![](https://image.jiqizhixin.com/uploads/editor/e50d29d5-00da-45ea-a663-b3b36cf9b020/1529479858029.png)
下面这个attention regions learning的方法进一步深化,定义了两种attention,一种是hard attention,有主干道,一种是soft attention,加入一些分支,然后把soft和hard枝干融合。最后只放出market数据集的结果,相比HA-CNN提高很多,但没有放出CHUK03的结果,无法重复实验。
![](https://image.jiqizhixin.com/uploads/editor/d6c4f8b2-f41a-4d45-81ac-2288d44f4d81/1529479858650.png)
![](https://image.jiqizhixin.com/uploads/editor/fc1d3e8e-10c8-49c0-8a3c-7758d7589442/1529479859091.png)
![](https://image.jiqizhixin.com/uploads/editor/2ef3f134-3ac0-490f-bfee-8e32588f98c7/1529479858788.png)
PDC发表在ICCV2017,它将Pose信息嵌入到结构网络中,生成一个modified结构图像,然后对这个结构图像进行识别,效果会有极大提高。
![](https://image.jiqizhixin.com/uploads/editor/1ebf5c03-7a8a-4563-b62a-555b608472e9/1529479858913.png)
这项工作PSE引入视角关系,将多视角结构进行整合,最后得到的结果也还不错。
![](https://image.jiqizhixin.com/uploads/editor/0dcfbc97-ac1a-4278-a177-0d91b452e455/1529479859362.png)
![](https://image.jiqizhixin.com/uploads/editor/f44b72bf-1c2b-48a7-ac3e-5b8db6a7ec49/1529479859208.png)
![](https://image.jiqizhixin.com/uploads/editor/2c2ff2c6-9521-411d-9b5d-bb4f0fc5d6f9/1529479859433.png)
最后感谢我的两位学生。谢谢大家!
个人主页:http://mypage.zju.edu.cn/xilics/
参考文献链接:
https://pan.baidu.com/s/1csXOCetmUb-LDfAI6jssGw 密码: h8ft