下一个视觉「杀手级应用」来了,依图行人重识别ReID性能创纪录

人脸识别之后的下一个风口是什么?

对于这个问题,业界似乎早已有了共识。从 AI 的人脸识别能力超越人类以来,学术界和产业界的目光逐渐转向另一个更具科研意义和应用价值的课题——行人重识别(Person Re-identification,ReID)。
 
近日,依图科技在 ReID 领域取得新突破,其提出的技术刷新了全球工业界三大权威数据集业内最优成绩(SOTA),算法性能达到业界迄今最高标准,极大拓展了算法和应用的边界。

注:YITU 算法结果是在不利用时空信息,不进行重排再优化,即: Re-ranking 等条件下取得的。
 
还记得 2018 年底依图进军智能语音,随即在中文语音识别领域创下识别精度的新纪录。2019 年 5 月推出全球首颗云端视觉 AI 芯片,而且「发布即商用」。在一些技术领域中,依图将行业水平推上了新的高点,并加速了技术的产业化落地。
 
这背后的关键是什么?
 
行人重识别(ReID),人脸识别后的「杀手级应用」
 
在交通运输、工业制造和城市规划等实际场景下,99% 的图像都是不含人脸的——即使出现了人脸部分也极其模糊,仅有几个像素大小,这时候人脸识别的作用较为有限。
 
行人重识别(ReID,也称「行人再识别」),是指在多摄像设备网络下对行人进行检索,利用步态动作、身体特征等更为全面的信息来识别人物,无论单独使用还是与人脸识别相结合,都能发挥更大的应用价值。
 
除了智能零售、智慧交通、智能城市等经常提及的应用场景,ReID 技术的应用也将使日常生活更加便捷:游乐园更易寻找走失儿童、宠物/家庭机器人可以凭背影准确识别主人或顾客并提供相应服务。
 
然而,由于 ReID 需要从不同摄像机拍摄的图像或视频中找出同一个人物,而这些摄像机所覆盖的范围彼此并不重叠,导致缺乏连贯的信息,而且不同画面中人物的姿态、行为甚至外观(比如: 正身、侧身、背身)会发生较大变化,不同时间、场景的光照、背景和遮挡物各不相同(背景中常还有体型、衣着相似的其他人物干扰),摄像机的分辨率也有高有低,人物在画面中出现的位置有远有进, 这些都对 ReID 技术提出了极大的挑战。
 
深度优化 ReID 算法框架,AutoML 取代人工算法调优
 
面对这种情况,依图深度优化了 ReID 算法框架,显著提升了算法效率,通过结合 AutoML 等前沿技术,进一步创新性地实现了模型参数的自动搜索与迭代,突破了依赖算法研究员手工设计与调优的传统算法开发流程,在降低人力成本的同时,使得算法的泛化性能更强。
 
此次依图自研算法在业界最具影响力的三大 ReID 数据集 Market1501、DukeMTMC-ReID、CUHK03 上,将衡量算法性能的两大关键指标「首位命中率」(Rank-1 Accuracy)及「平均精度均值」(Mean Average Precision,mAP)6 项数据全部提升,充分显示了依图的技术实力,进一步稳固了中国 AI 在该任务下领跑地位。
 
需要指出,首位命中率高,只意味着算法能够在众多图像中准确找出最容易识别或者说匹配的那张,并不能反应模型的真实能力,尤其是应对复杂场景的表现。
 
因此,评价 ReID 算法性能时需要结合 mAP 值,它反映的是系统的综合检索性能。mAP 值越高,说明系统的实用性越好,既能查得全也能查得准,能够较好地应对多遮挡、光线暗、画面模糊等情况。
 
自研 AI 芯片 QuestCore 助力,加速世界领先 ReID 算法商业化落地
 
除了算法性能,限制 ReID 应用大规模商业化落地的另一大原因,是现有的摄像机等终端设备没有足够强的算力。可以说,算力的缺乏一直是 AI 商业化落地的痛点。
 
依图在 2017 年自研云端 AI 芯片 QuestCore(求索),并于 2019 年 5 月「发布即商用」。QuestCore 是全球首颗云端视觉 AI 芯片,提供强大算力,单路摄像头功耗不到 1W。

依图研发人员针对本次提出的算法做了进一步优化, 依托依图自研 AI 芯片, 在仅凭穿着、步态特征的条件下,已能将 ReID 做到 2017-2018 年人脸识别的精度。如此高的精度,不仅加速了行人重识别的大规模商业化落地,更解锁了新的应用场景,为用户提供更为全面与极致的体验。
 
2017 年,以苹果 FaceID 为代表的人脸识别商业化应用开始在全球范围内普及。如今,刷脸支付、刷脸乘车已经渗透到我们的日常生活。有理由期待,世界级的 ReID 算法,加上依图自研 AI 芯片, 业界期待的下一个计算机视觉领域「杀手级应用」即将到来。

理论AutoML依图科技行人重识别ReID
相关数据
依图科技机构

依图科技是全球极少数拥有全栈AI核心自研技术的创新企业,在计算机视觉、语音识别、语义理解、智能决策、AI芯片等领域达到全球领先水平,是国内唯一具有提供超大规模、复杂环境下亿级规模城市的智能化运营管理技术能力的AI公司。

https://www.yitutech.com/
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推荐文章
暂无评论
暂无评论~