杜佳豪编辑

解锁行为识别难题,依图科技再夺一冠

继蝉联全球权威人脸识别竞赛冠军、先后刷新国际声纹识别权威竞赛(VoxSRC)纪录、行人重识别(ReID)三大权威数据集之后,依图在全球AI技术赛道再下一城,又攻下一个第一。

在权威机构ACM MM’20 Grand Challenge主办的“大规模复杂场景人体视频解析”挑战赛中,依图科技以大幅领先的成绩拿下了“Track-4:行为识别”的第一名。

ACM是全球最大的计算机领域专业性学术组织,其评选的图灵奖(A.M.Turing Award)被公认为世界计算机领域的诺贝尔奖。而ACM MM是全球多媒体领域的顶级会议,属中国计算机学会(CCF)指定的A类国际会议。

在此次挑战赛中,包括 Amazon腾讯、大华科技、中山大学等上百支参赛队伍参与了超过56000个复杂事件下的人体行为(包括排队、打架、俯身、同行、跑动、滞留等)解析。视频中行为识别是本届比赛中的重点项目,目的是考察算法在复杂场景下对行为(包含多人追踪、人体姿态、行为识别)的解析能力。

该赛事是该方向最接近真实场景的大规模挑战赛,依图科技夺冠的同时,其背后的技术创新和对行为识别难题的攻克一时间备受关注。

行为识别究竟有多难?

如果把人脸识别比作医院的“普外门诊”的话,行为识别尤其是人类的行为识别,其复杂度和识别难度不亚于“心血管内科+神经内科”。

场景复杂多变、动作差异化大、需要捕捉连续动作和长时间动作,这些对行为识别和分析都有着巨大的挑战,也就需要算法对行为本身有更精准的分析推理能力,甚至还能通过既定的场景推算未曾见过的场景。

结合此次比赛,行为识别是指以人为基础单位,只分析人的行为,关注单人的动作以及多人的动作(例如:一起走路、奔跑、打架等)。学术界通常用frame mAP (f-mAP@avg)来作为行为识别的评价指标,f-mAP@avg代表的含义是以关键帧为单位,评判行为的位置与分类是否准确;与学术界对行为识别的考察指标不同,此次竞赛的评价标准是wf-mAP@avg,这意味着更注重对难度较大的拥挤场景的考察,以及比较少见的动作的识别,同时对于人体框的定位的精确性要求也更高。

深度优化算法框架,算法性能极致提升

比赛中,依图算法的指标达到了wf-mAP@avg 0.26,将以往学术界中的基准算法提升了近3倍。与举办了多次的国际竞赛不同,这次竞赛是首届,参赛队伍在赛前也无法了解识别的类别、数据集的大小和识别的具体需求,要在短短一个多月的时间内,设计出最优的算法,并在众多实力强劲的队伍中达到世界第一,难度极高。

首先,视频相较于图像的行为识别更加复杂,且如何建模、视频帧之间的相关性仍是学术界一直存在的难题。依图认为,当应用场景明确后,在已知分析的对象是人体且明确知道要识别的类别后,就可以针对性的进行算法优化,通过算法定制化来提升算法性能,解决以往不能很好解决的问题。

与此同时,如同一提到依图大家就会想到多项人工智能技术挑战的世界冠军,由不同场景带来的先验知识和经验,有助于算法对行为的判断。依图此次创新性地将算法与场景进行了深度结合。一方面创新性的从视频中自动提取到了准确丰富的场景信息,结合先进的行人检测、行人重识别算法,全面构建了人与人、人与场景、人与物之间在视频中的关系;另一方面,借助多年来的算法积淀和对行业场景的理解,依图对比赛中要求的特定的14类任务进行了深度算法优化。

值得关注的是,不同于其他参赛队伍,依图此次没有使用复杂的多模型融合策略,仅用单模型,借助强大的背景提取和分割算法,将行为的解析与场景结合,就大大降低了问题难度,这也意味着依图仍可以进一步通过融合多个模型提升算法性能。

依图在相关行为上持续迭代,不断积累,行为识别算法的性能已远超比赛当时的算法性能。同时,运用该技术落地实战的项目难度也远超比赛的数据集。

芯片+算法,加速AI技术落地

想象一下,未来运用该技术如何判断一个都市夜归人路遇劫匪而自动报警?如何在家中老人倒地时让及时预警并第一时间告知监护人?如何判断一个生产线上的工人施工顺序出错并即刻发出告警?如何在一个视频中对内容进行精准理解,并为其贴上更合适的标签使得能够被更精准和更容易检索到?

在依图不断开拓AI新领域的版图上,相信这些问号背后的答案已逐渐清晰。此前,依图科技自主研发的全球首款云端视觉智能芯片求索(questcore™),开启了算法设计与芯片设计相结合的时代。集合了高性能AI算法和芯片耦合设计优化的芯片平台,结合世界领先的行为识别算法的依图,将更有利于赋能智能城市、安全生产、智能商业等领域,打造新一代AI基础设施。

目前,依图已在贵阳、福州等地实现了千万量级的城市级大规模AI应用,用实际行动诠释了AI技术如何实战落地。

近日,依图获得由英国标准协会(即“BSI”)颁发的ISO/IEC 27701:2019隐私信息管理体系国际认证,成为国内首家通过认证的AI公司。认证由国际标准化组织(ISO)和国际电工委员会(IEC)联合发布,是全球首个针对隐私信息管理的国际标准,也被公认为是最严格、权威的隐私信息管理标准。获得该认证充分体现了依图对数据隐私保护的坚持和持续践行。

新基建趋势下,各行各业加快数字化,提升各类工作的智能水平成为刚需。作为目前国内唯一具有提供超大规模、复杂环境下亿级规模城市的智能化运营管理技术能力的人工智能公司,在硬核的技术实力和隐私保障上的不断努力已形成一套“组合拳”,也即将加速解锁更多的智能应用。

产业行为识别依图科技
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
依图科技机构

依图科技是全球极少数拥有全栈AI核心自研技术的创新企业,在计算机视觉、语音识别、语义理解、智能决策、AI芯片等领域达到全球领先水平,是国内唯一具有提供超大规模、复杂环境下亿级规模城市的智能化运营管理技术能力的AI公司。

https://www.yitutech.com/
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
行人检测技术

行人检测是从摄像机中检测行人的任务。

推荐文章
暂无评论
暂无评论~