Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

旷视科技

10篇论文+5项第一,记旷视科技ECCV之旅

当地时间 9 月 14 日,欧洲计算机视觉顶级学术会议 ECCV 2018 在德国慕尼黑圆满落幕。据悉,ECCV 2018 规模空前,有近 3200 人参加,接收论文 776 篇;另有 43 场 Workshops 和 11 场 Tutorials。旷视科技研究院在院长孙剑博士的带领下远赴盛会,推动全球范围计算机视觉的技术交流与产品落地。

长期以来,计算机视觉三大学术顶会 CVPR、ECCV 和 ICCV 一起发挥着举足轻重的平台担当作用,帮助产学研各方代表展示技术实力,增进学术交流。旷视科技作为全球人工智能独角兽代表,是计算机视觉三大「C 位」会议的积极参与者,ICCV 2017 旷视科技打破谷歌、微软垄断,成为第一个问鼎 COCO 冠军的中国公司;CVPR 2018 旷视科技全面进击,论文、Demo、挑战赛、酒会,一个不少,掀起一股产学研交流热潮。

这次的 ECCV 2018,旷视科技同样保持着较高的参与度并收获颇丰:

  1. ECCV 2018 共收录 10 篇旷视科技研究院涵盖多个 CV 子领域的论文;

  2. 赢得 2018 COCO+Mapillary 挑战赛四项世界第一,成为 ECCV 夺冠最多的企业;

  3. 基于深厚的人脸识别技术积淀,旷视摘得 2018 WIDER Face Challenge 世界冠军。

下文将一一呈现旷视科技 ECCV 之行的点滴瞬间。

10 篇接收论文全面展现技术硬实力

据 ECCV 2018 官网信息,旷视科技共有 10 篇接收论文。从内容上看,论文涵盖 CV 技术的多个层面,小到一个新表示的提出,大到一个新模型的设计,乃至神经网络设计原则和新任务、新方法的制定,甚至弱监督学习的新探索,不一而足。

具体而言,旷视科技在以下技术领域实现新突破:网络架构设计(1 篇)、通用物体检测(2 篇)、语义分割(3 篇)、场景理解(1 篇)、文本识别与检测(2 篇)、人脸识别(1 篇)。

神经网络架构设计领域,ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design 不仅授之以鱼,还授之以渔,针对移动端深度学习提出第二代卷积神经网络 ShuffleNet V2,实现速度与精度的最优权衡,同时给出了神经网络架构的四个实用设计准则。这无疑将加速推进由深度学习驱动的计算机视觉技术在移动端的全面落地。此外,论文还提出网络架构设计应该考虑直接指标,比如速度,而不是间接指标,比如 FLOPs。

通用物体检测方面,旷视科技通过设计 1)新型骨干网络 DetNet 和 2)目标定位新架构 IoU-Net 推动该领域的发展。

DetNet: A Backbone network for Object Detection 的设计灵感源自图像分类与物体检测任务之间存在的落差。详细讲,DetNet 针对不同大小和尺度的物体而像 FPN 一样使用了更多的 stage;即便如此,在保留更大的特征图分辨率方面,它依然优于 ImageNet 预训练模型。但是,这会增加神经网络的计算和内存成本。为保证效率,旷视研究员又引入低复杂度的 Dilated Bottleneck,兼得较高的分辨率和较大的感受野。DetNet 不仅针对分类任务做了优化,对定位也很友好,并在 COCO 上的物体检测和实例分割任务中展现了出色的结果。

Acquisition of Localization Confidence for Accurate Object Detection(IoU-Net)实现了作为计算机视觉基石的目标检测技术的底层性原创突破。具体而言,通过学习预测与对应真实目标的 IoU,IoU-Net 可检测到的边界框的「定位置信度」,实现一种 IoU-guided NMS 流程,从而防止定位更准确的边界框被抑制。IoU-Net 很直观,可轻松集成到多种不同的检测模型中,大幅提升定位准确度。MS COCO 实验结果表明了该方法的有效性和实际应用潜力。研究员同时希望这些新视角可以启迪未来的目标检测工作。

旷视科技语义分割领域的论文占比最高:1)实现实时语义分割的双向网络 BiSeNet;2)优化解决语义分割特征融合问题的新方法 ExFuse;以及 3)通过实例级显著性检测和图划分实现弱监督语义分割的新方法。

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation 的提出基于三种主流的实时语义分割模型加速方法,并在特征融合模块和注意力优化模块的帮助下,把实时语义分割的性能推进到一个新高度。

ExFuse: Enhancing Feature Fusion for Semantic Segmentation 针对语义分割主流方法直接融合高低特征不奏效的问题而提出,创新性地在低级特征引入语义信息,在高级特征嵌入空间信息,优化解决特征融合的问题。

Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation 通过整合显著性检测和图划分算法,提出一种新型弱监督学习方法,加速语义分割发展,其最大亮点是既利用每个显著性实例的内在属性,又挖掘整个数据集范围内不同显著性实例的相互关系。

旷视科技借助统一感知解析网络 UPerNet 来优化场景理解问题。Unified Perceptual Parsing for Scene Understanding 提出名为统一感知解析 UPP 的新任务,要求机器视觉系统从一张图像中识别出尽可能多的视觉概念;又提出多任务框架 UPerNet,开发训练策略以学习混杂标注。UPP 基准测试结果表明,UPerNet 可有效分割大量的图像概念。

在文本识别与检测方面,旷视科技贡献了 1)新型端到端可训练网络 Mask TextSpotter 和 2)检测任意形状文本的灵活表征 TextSnake 两个技术点。

Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 受到 Mask R-CNN 启发,通过分割文本区域检测文本,可胜任任意形状的文本;另外,相比其他方法,Mask TextSpotter 还可借助语义分割实现精确的文本检测和识别。

TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 可以拟合任意形状的文本,就像蛇一样改变形状适应外部环境;基于这一表示,出现了一种有效的场景文本检测方法,在包含若干个不同形式(水平、多方向、曲形)的文本数据集上做到当前最优。

GridFace 是旷视科技人脸识别领域的一项新突破。GridFace: Face Rectification via Learning Local Homography Transformations 可通过学习局部单应变换减少人脸变形,先校正,再识别,过硬的校正技术大幅提升了人脸识别的性能。相关实验结果已证明该方法的有效性和高效性。

2018 COCO+Mapillary 包揽四冠成最大赢家

ECCV 2018 最受瞩目的 COCO+Mapillary 联合挑战赛,中国战队夺获全部冠军。旷视科技参战 3 项 COCO 比赛和 1 项 Mapillary 比赛,分获 3 项 COCO 第一和 1 项 Mapillary 第一,四战皆胜,揽下了挑战赛的「大半江山」,在实例分割、全景分割和人体关键点检测上进行了迭代式新探索。

实例分割

实例分割是当前器视觉物体识别最前沿的技术之一,也是计算机视觉最核心的任务之一。旷视科技夺冠的关键是在模型的核心组件 Head 上做功夫,提出一种名为 Location Sensitive Header(LSH)的新方法。

传统 Mask R-CNN 方法借助 RoI Align 提高实例分割定位精度,但对 RoI Align 之后的组件 Head 无暇顾及。旷视研究员发掘出一个对实例分割友好,对定位精度敏感的 Head。概括来说,LSH 重新设计了任务之间的组合,把分类和分割 combine 起来,这样做不仅可以优化开发实例分割定位能力,还可有效避免定位和分类之间的冲突。最终,旷视科技以 mmAP 0.486 的成绩拿下并列第一。

全景分割

全景分割是这次挑战赛的一项全新任务,代表着当前计算机视觉识别技术最前沿,没有之一。从任务层级看,全景分割会比实例分割更进一步。针对这次大赛,在端到端框架探索折戟之后,旷视研究员选定一种 two-fold 方案:整合语义分割和实例分割算法的输出。

这一做法需要克服两个问题:1)Stuff 的特殊性;2)Thing 的遮挡。首先,旷视研究员针对 Stuff 设计试验了更强的 Encoder Network,又针对 Stuff Context 设计专门的 Object Context Network,保证 Stuff 的性能;其次,由于放弃端到端框架,在图像融合之时会出现遮挡问题,旷视研究员给出了专门的 Spatial Hierarchical Relation 方法,根据不同物体的重叠面积排定图像理解的层级。旷视科技高歌猛进,最终在 COCO+Mapillary 实例分割两项任务中分别以 PQ 0.538 和 0.412 的成绩实力夺魁。

人体关键点检测

人体关键点检测需要在多角度、多目标、多尺寸等不受限条件下检测人体,同时精确定位人体关键点,自 2016 年第二届 COCO 挑战赛以来一直保留,目前是第三次迭代。COCO 2017,旷视科技曾夺得第一,这次乘胜追击,背后支撑的依然是「旷式」突破性技术。

由于当前主流的人体姿态估计网络都遭遇了瓶颈问题:增大骨干网络 Backbone 对精度提升的作用趋近于饱和,旷视研究员设计了新型 Cascade Backbone Network(CBN),可采用多层次跨阶段连接和由粗到细的监督策略,实现大幅的精度提升。CBN 采用小网络、多阶段、多层中间监督,跨阶段连接实现检测结果逐阶段精细提升,最终在 COCO 2018 人体关键点挑战数据集中获得 mmAP 0.764 的精度,顺利卫冕。

2018 WIDER Challenge 人脸识别挑战赛勇夺第一

ECCV 2018 WIDER Face and Pedestrian Challenge 是一项全球范围内的计算机视觉顶级赛事和新基准竞赛,吸引超过 400 多支队伍参加,旷视科技参战其中的人脸检测比赛 WIDER Face Challenge,最终以 mmAP 0.5582 的成绩技压群雄,勇夺冠军。

这项比赛中,旷视科技基于 RetinaNet 提出一种新型级联检测器,既吸取了 Cascade R-CNN 不断提高阈值 refine 检测框的 insight,又保证了 inference 时依然是单阶段检测器,取长补短,兼得性能与速度。这一原创方法在单模型单尺度下 mmAP 超过第二名 1.4 个点,最终 mmAP 超过第二名 2.5 个点,以较大领先优势夺得第一名。

以上是旷视科技 ECCV 2018 之行的一些掠影。

作为全球计算机视觉独角兽参加计算机视觉顶会,是对自身实力的一个验证和砥砺,也是一次相互交流和学习的好机会。旷视科技始于计算机视觉,深耕计算机视觉人工智能的爆发与深度学习的发轫也在计算机视觉,从机器之眼开始,正如五亿四千万年之前,寒武纪生物大爆发的一个主要诱因是眼睛的出现。

能看的机器之眼,是计算机视觉技术与应用的共同目标,只不过技术是第一步。ECCV 2018,旷视科技交上了一份满意的答卷。

产业旷视科技计算机视觉ECCV 2018
2
相关数据
寒武纪机构

寒武纪科技是一家AI芯片研发商。致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片,同时还为用户提供IP授权、芯片服务、智能子卡和智能平台等服务。

www.cambricon.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

定位技术技术

通常是指机器人领域的定位技术,see SLAM for details

掩饰的基于区域的卷积神经网络技术

Mask R-CNN是一个概念上简单,灵活和通用的对象实例分割框架。 该方法能够高效地检测图像中的对象,同时为每个实例生成高质量的分割蒙版。 这种方法通过添加一个用于预测对象蒙版的分支来扩展R-CNN使之更快,该分支与现有的用于边界框识别的分支并行。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

暂无评论
暂无评论~