范浩强作者

CVPR 2019 | 旷视实时语义分割技术DFANet:高清虚化无需双摄

全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)将于 6 月 16-20 在美国洛杉矶如期而至。届时,旷视首席科学家、研究院院长孙剑博士将带领团队远赴盛会,助力计算机视觉技术的交流与落地。在此之前,旷视每周会推出一篇 CVPR'19 接收论文解读文章。本文是第 4 篇解读,旷视研究院提出一种实时语义分割技术——DFANet,不仅减小了 7 倍计算量,突破实时计算边界,而且无需双摄也可实现手机图像的高清虚化。

论文名称:DFANet:Deep Feature Aggregation for Real-Time Semantic Segmentation

论文链接:https://share.weiyun.com/5NgHbWH

  • 导语

  • 简介

  • 方法

    • 高层语义特征的充分利用

    • 聚合让轻量级编码器受益

  • 实验

    • 7 倍轻量依然准确

  • 结论

  • 参考文献

  • 往期解读

导语

很多手机没有双摄像头,也能实现美轮美焕的背景虚化效果,究其原因,是语义分割技术在发挥作用。目前,已有过亿用户使用搭载有旷视所提供的深度算法的个人终端产品,而旷视研究院语义分割技术的最新成果——DFANet,已为全球计算机视觉顶会 CVPR 2019 所收录。本文的解读将提前公开产品背后的“秘密”。

简介

图像的语义分割需要对标签做逐像素的预测,例如判断一个像素属于前景/背景,又或是道路/车辆/行人等。随着移动互联网、物联网5G 等技术的到来和普及,在计算力受限的设备上进行高分辨率的语义分割就成为了一个迫切需求。

然而,当面对高分辨率输入时,深度卷积网络经受着巨大挑战:网络容量(运算量)和速度之间很难有一个 tradeoff。例如,对于移动端处理器,实际可用的计算能力可能只有数十 GFLOPs,而一但要求跟上视频计算的速度(如 30fps),每一帧分配的计算量就更少得可怜。在如此少计算量的限制下,神经网络的精度的“涨点”之路可谓举步维艰。

有没有什么方法可以在高输入分辨率、小计算量的情况下依然获得很高的分割精度呢?这正是旷视研究院最新力作 DFANet 的目标所在。

相同精度下,DFANet 可相较先前方法减少 7 倍的计算量,在 1024 像素宽度的高清图像上,最小仅需要 2.1GMAdds 的计算量,开启了在主流移动端处理器上做高清视频级应用的可能性。

基于 DFANet 技术的实时人像虚化

方法

实时语义分割技术 DFANet 是如何实现的呢?可以说是两个优点的整合:1)通过深度多层聚合(Deep Feature Aggregation)结构充分利用网络的高层特征信息,2)通过 DFA轻量级特征聚合结构让轻量级编码器大受裨益。

高层特征的充分利用

图 1:主流分割网络结构对比

神经网络的卷积操作在各个层级抽取出大量特征,充分用好这些来之不易的特征向量是设计轻量级神经网格的圭臬,而不同的部位之间特征共享是一个重要的手段。DFANet 对主流分割网络做出了这样一个观察:网络中往往存在不同输入分辨率的进行特征提取的并行的“塔”(如图 1(a)所示);而这些“塔”之间可以共享特征。

DFANet 的核心结构是如图 1(d)所示的深度多层聚合,其特点是每一个层提取的特征会复用于下一级“塔”,同时,前一级“塔”的输出特征在上采样之后送到后一级“塔”。之前的分割网络结构要么塔之间没有连接,从而在这里失去了重用特征的机会;要么干脆没有多个塔,导致解码器承受过多压力。而把一级的输出送回下一级的设计使得每一级都能站在上一级结果的肩膀上,从而加速了网络的训练。

综合以上优势,DFANet 的特征提取方式可在小计算量的前提下最充分地促进不同层次特征之间的交互与聚合,从而提升准确率

图 2:深度多层聚合网络示意图

图 2 以 1024x1024 的输入分辨率为例展示了 DFANet 的全部结构,它由最多三级特征提取塔所构成。各个层级的特征最后汇总到一个解码器(decoder)输出逐像素的结果。实际使用时可按需求定制输入分辨率与塔的级数,从而灵活调节计算量与效果。

聚合让轻量级编码器受益

为了适应实时的要求,网络结构中的编码器(encoder)使用了一个修改后的 Xception 结构。

通常,使用 Xception 等“轻量级”编码器会导致精度极大下降(如上表所示,把 ResNet-50 换成 Xception 最多可以导致 9% 的 mIou 下降)。缓解该问题有个方法,即通过增加多层次特征聚合来减轻编码器容量减小所带来的冲击。不过,一般的特征聚合方法,如ASPP,会显著增加运算量。上表中所举的例子,ASPP 模块甚至能占到 70%~80% 左右的总运算量。这在实时应用中无疑成为了最大的瓶颈。 

而在 DFANet 中,聚合不再是运算量的“无底洞”。如表中数字所示,DFANet 的轻量级聚合结构在不显著增加运算的前提下,可以达到类似 ASPP 等的聚合效果。例如在同样 1.6GMAdds 的对比中,使用了 DFA 结构后,可以把原来 Xception 结构的性能从 59.2%提升到 71.9%,远远超出 ASPP 之后的效果,且计算量更小。这充分说明了 DFA 结构是一个能力出色的轻量级特征聚合结构。

DFA 结构与轻量级编码器相辅相成,共同实现了算法总运算量的降低。可以说,轻量级的聚合结构是通向实时计算的关键组件。 

实验

7 倍轻量依然准确

为公平验证 DFANet 的效果,旷视研究院在学术界最常用的分割测试集 Cityscapes 上做了测试。这个数据集是各种最新分割算法的集大成者,尤其是实时分割结果;在其中,输入图片被要求分割为道路、车辆等不同区域,而预测区域与实际区域之间的“平均相交比例”(mIou)被作为评测不同算法的指标。

图3:DFANet 与其他方法性能对比

由上图可知,相比于先前的 BiSeNet 和 ICNet 等,在相近精度的条件下 DFANet 可以极大地减少运算量。而和 ENet 等小计算量方法相比,DFANet 的精度有巨大提升。

具体而言,在使用边长 1024 的高清测试集上,DFANet可以只使用 3.4GMAdds 的运算量在 Cityscapes testset上达到 71.3% 的 mIou 水平。与它运算量接近的 ENet 只有 57% 的 mIou,而当 mIou 类似时,例如 BiSeNet,之前方法的运算达到 10GMAdds 以上,无法完全满足终端设备实时计算的要求。

可以说,在计算量受限的前提下,DFANet 是第一个能在高分辨率图片上达到准确度媲美主流“大模型”的轻量化网络。

表 5:分割测试集Cityscapes testset上的速度分析

对于图像结果的主观评估也验证了 DFANet 结构的有效性。如下图所示,随着特征提取塔数的加多,分割结果中错误的细节越来越少,直到逼近真实答案。这说明随着越来越多的特征被聚合,原来“看不明白”的地方可以被更正确的理解与预测。

图 4:DFANet 在 Cityscapes 验证集上的结果

结论

AI落地之路行之不易,除了完备的训练系统与工程化之外,更需要在算法理论上进行突破创新。对于无数需要智能化进行赋能的终端设备,以 DFANet 为代表的新一代模型算法将找到广阔的应用,旷视正以非凡科技,朝着驱动百亿智能设备的愿景大步前进。

参考文献

  • H. Zhao, X. Qi, X. Shen, J. Shi, andJ. Jia. Icnet for real-time semantic segmentation on high-resolution images.ArXiv preprint arXiv:1704.08545, 2017

  • H. Zhao, J. Shi, X. Qi, X. Wang, andJ. Jia. Pyramid scene parsing network. In IEEE Conf. on Computer Vision andPattern Recognition (CVPR), pages 2881–2890, 2017.

  • L.-C. Chen, Y. Zhu, G. Papandreou, F.Schroff, and H. Adam. Encoder-decoder with atrous separable convolution forsemantic image segmentation. arXiv preprint arXiv:1802.02611, 2018.

  • H. Li, P. Xiong, J. An, and L. Wang.Pyramid attention network for semantic segmentation. arXiv preprintarXiv:1805.10180, 2018

  • C. Yu, J. Wang, C. Peng, C. Gao, G.Yu, and N. Sang. Bisenet: Bilateral segmentation network for real-time semanticsegmentation. arXiv preprint arXiv:1808.00897, 2018.

  • F. Chollet. Xception: Deep learningwith depthwise separable convolutions. arXiv preprint, pages 1610–02357, 2017.

  • A. Paszke, A. Chaurasia, S. Kim, andE. Culurciello. Enet: A deep neural network architecture for real-time semanticsegmentation. arXiv preprint arXiv:1606.02147, 2016.

旷视科技
旷视科技

Power Human with AI

理论DFANet语义分割旷视科技CVPR 2019
61
相关数据
验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

物联网技术技术

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
喜欢