超越微软!旷视科技夺获人工智能顶赛Wider Challenge人脸检测冠军

Wider Face and Pedestrian Challenge 2018(简称 Wider Challenge)是一项全球范围内的计算机视觉顶级赛事,旷视科技(Megvii)参战了其中人脸检测比赛 Wider Face,最终以 0.5582 的成绩技压群雄,勇夺人脸检测冠军。旷视科技人脸检测冠军纪录最早可追溯至 2013 年赢得人脸识别领域 3 项世界冠军。下面,本文将从比赛、技术、团队以及产业 4 个维度展开解读。

Wider Face 比赛结果

关于 Wider Challenge

Wider Challenge 2018 是由计算机视觉顶会 ECCV 2018 举办的顶级挑战赛之一,吸引全球超过 400 多支队伍参加,比赛及结果公布于 ECCV 会前完成,颁奖仪式及相关研讨会安排在大会期间(9 月 8 号)。继 FDDB 之后,Wider Challenge 成为计算机视觉检测领域的基准比赛,含金量很高,在一定程度上可以清晰反映参赛方技术力量的实况和积淀。

今年,该比赛旨在解决人体检测领域的 3 个核心问题:人脸的精确定位,人体的精确定位,以及人物身份精确匹配。为此,Wider Challenge 2018 相应地分为 3 个比赛(track):

lWIDER Face, 目标是深掘新方法,刷新人脸检测当前最佳水平。

lWIDER Pedestrian, 目标是收集有效而高效的新方法,优化解决自然场景之下的行人检测问题。

lWIDER Person Search, 从 192 部电影中进行目标精确匹配的人物搜索。

自左向右,三个比赛的实例。

关于技术

从技术角度讲,这次的人脸检测比赛 Wider Face 出现了新难点,为此旷视科技给出了一套自己的解决方案,取得第一名的成绩,超越第二名微软(MSRA)2 个点。

难点

相比以往,WIDER Face 2018 有 2 个显著的难点。一是数据集,二是评估标准。

Wider Face 比赛使用同名数据集,它首次开源于 CVPR 2016,包含 32,203 张图像和 393,703 个检测框标注,是当前不同场景之下人脸类别跨度最大的数据集,从小脸密集脸、多姿态脸、遮挡脸、表情脸、化妆脸到模糊脸,一应俱全。

Wider Face 数据集中不同类别的人脸。

前人脸检测基准 FDDB 由于数据量小且简单退出之后,Wider Face 晋级为人脸检测领域最科学、最权威的基准数据集,同时今年还进行了一些优化标注甚至是重新标注,堪称是人脸检测能力比拼的最佳平台。显而易见,比赛难度也加大很多。 

Wider Face 2018 评估标准沿用 COCO 规范,更细致更严格,对定位要求更高,不仅要大概准,还要非常准,甚至是“变态准”。具体来讲,它不再只使用 AP_50,而是计算检测框 IoU 阈值超过 10 的平均精度,从 AP_50 到 AP_95(步长为 5,共 10 个 AP)进行加权求平均值。这再次加大了比赛夺冠的难度。

方法

鉴于上述两个新挑战,旷视科技在技术沉淀的基础上,从算法模型、Backbone 以及数据增强3 个方面给出了原创性的解决方案。 

旷视科技是 COCO 2017 冠军,在物体检测方面“家底”极厚,身经百战,形成了一套优秀的“演练作战传统”。此次针对 Wider Face 人脸检测的小脸、模糊脸问题,旷视科技提出一种基于单阶段检测器的新方法,称之为级联检测网络(Cascade Detection Network)。

在 Backbone 以及数据增强方面,旷视同样做了新探索。比如 Backbone 避重就轻,没有选择 ResNet 101,而是采样了像 DenseNet 121、 ResNet 50 这样相对轻量化的基础网络,或者多个轻模型的融合。旷视科技后续会针对性地出一篇论文,想了解更多的人请留意关注。

结果

通过上述原创技术,旷视科技比赛结果优势明显,不仅夺得第一名,成绩还大幅超过第二名、第三名,分别高出 2 个点和 5 个点。另外,旷视科技单模型和多模型结果都提交过,结果表明,即使是按照单模型,同样可以拿到冠军。

值得一提的是,旷视科技上层技术的创新源自底层技术和原创深度学习平台的支撑。这次打赛过程中,旷视科技自研的深度学习云平台 Brain++ 有力保障了模型训练的稳定性;原创的深度学习引擎(先于 TensorFlow)则保证高效快速地训练和测试模型,避免时耗。正是因为有后方的保障,才有前方的胜利。

关于团队

打比赛就像打仗一样,是一支队伍,需要团队协作。但是旷视这次的比赛,也仅仅动用了 1.5 名实习小矿工:一个为主,一个为辅(外加检测组负责人和研究员的指导)。这种实习生冲在一线的打赛模式是一种锻炼和培养新人成长的宝贵机会。第一名的成绩也反证了这种模式的科学性。

1.5 名实习生,这并不是说旷厂缺人,也不是轻视打赛,这恰恰说明了旷厂有一套完备的“演练打赛机制”,不仅节约了大量人力和时间成本,而且纳入这套机制的每一方皆有所获。本质上这是一种高效的经验传承,实习生获得大量输入,再经由天赋的脑瓜,输出第一名的成绩,由此借假(比赛)修真(能力提升),人与事两相成。

关于产业

人脸检测在旷视的整个计算机视觉技术矩阵中处于中层,属于核心算法之一,经过工程化包装或者硬件的加持,形成高效可复制的模型框架,从而最终走向人脸相关的产品线。

人脸检测是机器视觉技术落地的最大场景之一,是旷视图像识别技术的四大对象之一(人、脸、车、字),也是旷视 AI+IoT 战略中承上启下的一环。这一冠军成绩所反映出的技术点创新将进一步优化旷视的整个技术体系,导向手机、安防、地产、零售等多个产业领域,为达成 AI+IoT 战略提供了有力的技术支撑。

旷视科技
旷视科技

Power Human with AI

产业旷视科技ECCV 2018
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐文章
暂无评论
暂无评论~