阿里云ET城市大脑新突破:行人检测与识别破世界纪录

阿里云ET城市大脑所要解决的世界级难题,正在催生出一系列世界级的技术。1月8日,全球权威机器视觉算法排行榜KITTI刷新了排名,阿里巴巴人工智能研究机构iDST夺得行人检测单项冠军。于此同时,在知名的行人再识别数据集Market1501中,他们也取得重大突破,首位命中率提升至96.17%,位居世界第一。

行人检测、行人再识别是交通管理、城市平安、无人驾驶等领域的两项核心基础技术。行人检测要求机器能够从图像或者视频中判断是否有行人,行人在哪里;行人再识别则要求机器能够识别出特定人员的所有图像。在景区商场人流预测、人群个性化分析、行人交通安全、无人驾驶、寻找丢失老人儿童等应用上,这两项技术可以发挥巨大的作用。


行人检测技术示意


行人再识别技术示意

这并非简单的人脸识别。阿里巴巴iDST副院长、IEEE Fellow华先胜说,在实际的城市场景下,大多数摄像头拍摄到的图像看不清人脸,但通过行人的整体和局部特征则可实现人员的识别。然而,实际场景中遮挡、光照、拍摄角度、拍摄距离、人物姿态等因素的变化,以及摄像头设备的不同,对行人检测和行人再识别的准确性提出了极大的挑战。

为了解决这一难题,华先胜领导的机器视觉团队采用了多项技术创新:

在行人检测技术方面,他们提出了基于目标尺寸分级的级联检测网络,并基于动态投票和循环推断的边界框定位策略,重点解决行人检测问题中存在的目标尺寸浮动大、语义特征差异大、遮挡、形变且定位不准等问题。

针对小尺寸目标的检测,他们利用了面向不同目标尺寸级别的多分支网络结构,充分发挥感兴趣区域的上下文信息提升网络特征提取的能力,同时在目标定位的问题中采用交叉熵正则约束来优化边框定位准确度。

在行人再识别方面,他们提出了基于局部细粒度信息和全局粗粒度信息相结合的识别网络,并引入了不同摄像头下特征表达一致性的约束,用于多摄像头下的行人再识别任务。

网络结构设计上,团队利用超分辨模块和特定的人头、上半身和下半身注意力网络和识别网络来得到更清晰的局部细节特征,解决行人全局特征中存在的尺寸影响大、清晰度低等问题,引入全局特征和局部特征的动态融合机制解决局部遮挡问题。同时,采用距离正则约束来提高跨摄像头下行人表征的一致性。

除了行人检测、行人识别之外,iDST还长期占据着KITTI的车辆检测世界冠军,他们在计算机视觉国际顶级会议TIP、ACM MM等发表多篇论文,与世界分享中国技术。

目前,这些技术已经全部集成到阿里云ET城市大脑当中,并在多地落地使用。华先胜说,“正如60年代的登月计划带来了通讯技术、生物工程技术大爆发一样,城市大脑已经成为世界顶尖的科技创新的平台,前所未有的难题倒逼科学家们创造前所未有的技术”。不久前,城市大脑正式成为国家四大人工智能开放创新平台之一,未来将吸引全球顶尖的研究机构共同参与创新。

据了解,阿里云ET城市大脑已经在杭州、苏州、衢州、乌镇等地落地。得益于精良的机器视觉算法,杭州城市大脑可以做到准确侦测、发现交通事故,日均事件报警500次以上,准确率达92%。

产业
返回顶部