从「图片」到「视频」,澎思科技打破视频行人再识别技术三项纪录

继在三大主流单帧图片行人再识别数据集(Market1501,DukeMTMC-reID,CUHK03)刷新世界纪录后,近日,澎思科技(Pensees)在基于视频的行人再识别数据集(PRID-2011,iLIDS-VID,MARS)中再次取得突破性进展,一举实现在三大数据集上实现算法关键指标首位命中率(Rank-1 Accuracy)大幅度提升,准确率均创历史新高。

刷新三大数据集世界纪录

PRID-2011、iLIDS-VID和MARS均为基于视频的行人再识别数据集。PRID-2011数据集中的视频对通过两个固定的监控摄像头进行采集,摄像头A包含385个行人,摄像头B包含749个行人。这些行人中,只有200个行人同时出现在两个摄像头中。iLIDS-VID是在PRID-2011之后公布的数据集,与PRID-2011相比,数据更加整齐,也更有挑战性。iLIDS-VID数据集是通过机场到达大厅的CCTV监控视频采集得到的,包含300个行人在两个摄像头下的600段视频。视频中存在严重的着装相似,光照和视角变化,复杂背景和遮挡现象,因此识别难度大。MARS数据集是目前基于视频ReID最大的数据集,是单帧图片行人再识别数据集Market1501的扩充版,图像数量由32,668幅扩展到了1,191,003幅。

与单帧图片的行人再识别数据集一样,首位命中率(Rank-1 Accuracy)和平均精度均值(Mean Average Precision,mAP)是衡量视频行人再识别ReID算法水平的核心指标。澎思科技此次一举实现在三大数据库上,仅利用原始数据就实现Rank-1 Accuracy关键指标大幅度提升。目前,澎思科技算法在最大的视频数据集MARS上的首位命中率指标已经达到88.8%,领先香港中文大学、中科大、北京大学等国内外知名机构。在iLIDS-VID和PRID-2011等数据集上首位命中率也分别达到了88.0%和95.5%。

vis澎思科技行人再识别ReID算法在MARS数据集的部分测试结果立足澎思现有业务,展开垂直领域技术研发和创新

澎思科技此次成果的取得源于澎思新加坡研究院对算法的自研创新和融合探索,是立足于澎思现有业务和商业模式,结合公司的发展方向针对性开展垂直领域技术研发和创新。主要包括以下几个方面:

1、受遮挡、姿态变化、视角变化等因素的影响,视频序列中行人的特征是不连续的。用全局特征来度量每一帧图片的权重往往会损失掉许多重要的信息。采用分割重组策略将特定局部特征重组成多个视频序列进行学习,进而极大减少局部特征损失对最终特征的影响。

2、其次,提出了全新的双向图注意力机制模块。将图卷积神经网络和SENet完美结合,在整个序列上进行通道域的模式选择学习。同时通过双向网络进行空间域的注意力区域学习。由于图卷积网络的特性,每一帧图片的注意力特征都是与其他帧相互学习结合的结果,从而极大提高特征的代表性。

3、最终,利用帧间相似度进行序列融合。与大多数利用循环神经网络进行融合算法相比,最大的优势是不需要训练额外的模型参数,仅仅通过数学计算的方式就可以达到融合的目的。这样,数据的类内相似度得到了极大的提高。在结合三元损失函数进行训练后,类间相似度得到了降低,进而提高重识别效果。

基于视频的行人再识别与单帧图片的行人再识别任务目的是相同的,即在视角不重叠的多摄像机网络下进行行人的匹配。尽管基于单帧图片的行人再识别算法已经取得了不错的进步,但由于单帧图片只包含有限的行人信息,网络提取的特征不具备足够的代表性,检测结果往往受图片质量的影响较大。

与此相比,视频序列的优势便凸显出来。一个短视频序列往往包含行人多运动状态下的更多特征,并且利用时序信息,可以将背景、遮挡等干扰因素的影响降到最低,提升识别的准确度。

基于视频的行人再识别(ReID)技术更贴近智慧城市建设的诸多应用场景,能有效解决行人信息有限、特征不足及其他干扰因素等问题,相比单帧图片的行人再识别具备更长远的落地应用空间。接下来,澎思科技将进一步加大在视频行人再识别算法上的研究,并逐步将算法应用到平安城市、智慧社区、智慧园区、智慧零售、智慧交通等实战应用场景中。

产业行人再识别澎思科技
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图卷积神经网络技术

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。GCN的三个主要特征:它是卷积神经网络在 graph domain 上的自然推广;它能同时对节点特征信息与结构信息进行端对端学习;适用于任意拓扑结构的节点与图;

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

推荐文章
暂无评论
暂无评论~