Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟、Chita、路编译

重新思考扩张卷积!中科院&深睿提出新型上采样模块JPU

扩张卷积在获取高分辨率最终特征图中发挥重要作用,但它也有一些缺陷,比如增加了计算复杂度和内存占用。近日,来自中科院自动化所以及深睿AI实验室的研究人员提出一种新型联合上采样模块 Joint Pyramid Upsampling(JPU),可在多种方法中替代扩张卷积,在不损失模型性能的情况下,有效降低计算复杂度和内存占用。

语义分割计算机视觉领域的基础任务之一,其目的是为图像的每个像素分配语义标签。现代方法通常采用全卷积网络(FCN)来解决这一任务,并在多个分割基准上获得巨大成功。

原版 FCN 由 Long 等人 [22] 提出,它由用于图像分类卷积神经网络(CNN)变换而来。原版 FCN 继承了 CNN 用于图像分类的设计,并通过步幅卷积(stride convolution)和/或空间池化层(spatial pooling layer)逐步对输入图像进行下采样,最终得到低分辨率特征图。最终的特征图编码了丰富的语义信息,却丢失了精细的图像结构信息,导致目标边界预测不准确。如图 1a 所示,原版 FCN 通常对输入图像进行 5 次下采样,将最终特征图的空间分辨率降低 32 倍。

图 1:不同类型的语义分割网络。(a)原版 FCN,(b)编码器-解码器样式的语义分割网络,(c)利用扩张卷积得到高分辨率的最终特征图。

为了得到高分辨的最终特征图,[3, 28, 18, 30, 27] 将原版 FCN 作为编码器来捕获高级语义信息,而解码器则通过结合来自编码器的多级特征图来渐进地恢复空间信息。如图 1b 所示,研究者将这种方法称为 EncoderDecoder,其中解码器生成的最终预测具有高分辨率。

此外,DeepLab [5] 从原版 FCN 中移除最后两个下采样操作,并引入扩张(空洞)卷积以保持感受野(receptive field)不变。紧随 DeepLab,[38, 6, 36] 在最终特征图之上应用多尺度语境模块(context module),其性能在多个分割基准上明显优于大多数 EncoderDecoder 方法。如图 1c 所示,DilatedFCN 的最终特征图的空间分辨率是原版 FCN 的四倍,因而保留了更多结构和位置信息。

扩张卷积在保持最终特征图的空间分辨率中发挥重要作用,使模型性能优于大多数 EncoderDecoder 方法。但是,引入的扩张卷积使计算复杂度和内存占用均大大增加,从而限制了它在众多实时应用中的使用。以 ResNet-101 [13] 为例,相较于原版 FCN,DilatedFCN 中的 23 个残差块(69 个卷积层)需要四倍的计算资源和内存,而 3 个残差块(9 个卷积层)需要 16 倍的资源。

在本文中,研究人员旨在解决扩张卷积造成的上述问题。为了实现这一目的,研究人员提出了一种新型联合上采样模块(joint upsampling module)来替代耗时又耗内存的扩张卷积,即 Joint Pyramid Upsampling(JPU)。

因此,新方法将原版 FCN 作为主干网络,同时运用 JPU 对输出步幅(OS)为 32 的低分辨率最终特征图执行上采样,从而生成一个高分辨率特征图(OS=8)。因而,整个分割框架的计算时间和内存占用大幅减少。与此同时,以 JPU 替代扩张卷积时,性能不会出现损失。研究人员将此归因于 JPU 能够利用跨多级特征图的多尺度语境。

为了验证该方法的有效性,研究人员首先进行了系统性实验,证明 JPU 可以取代多种流行方法中的扩张卷积,且不会引起性能损失。之后,研究人员在多个分割基准上对提出的方法进行测试。结果显示,该方法可以实现当前最佳性能,并且运行速度提高了两倍以上。

具体来说,该方法在 Pascal Context 数据集上的性能显著优于所有基线,取得了 53.13% 的 mIoU 最佳性能。在 ADE20K 数据集上,该研究以 ResNet50 作为主干网络获得了 42.75% 的 mIoU,在验证集上创造了新纪录。此外,该研究使用 ResNet-101 在 ADE20K 测试集上实现了当前最佳性能。

总之,该研究的贡献有三:其一,提出了一种计算效率高的联合上采样模块 JPU,以替代主干网络中耗时又耗内存时间和内存的扩张卷积;其二,基于 JPU,整个分割框架的计算时间和内存占用可以减少 3 倍以上,同时获得更好的性能;其三,提出的方法在 Pascal Context 数据集和 ADE20K 数据集上均实现最佳性能。

论文:FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

论文链接:https://arxiv.org/pdf/1903.11816.pdf

现代语义分割方法通常会在主干网络中使用扩张卷积来提取高分辨率特征图,这带来了极大的计算复杂度和内存占用。为了取代耗时又耗内存的扩张卷积,本研究提出了新型联合上采样模块 Joint Pyramid Upsampling (JPU)。JPU 将提取高分辨率特征图的任务转换为联合上采样问题。

它在不影响性能的情况下,将计算复杂度降低了三倍多。实验表明,JPU 优于其它上采样模块,它可用于很多现有方法来降低计算复杂度、提高性能。通过用 JPU 模块替代扩张卷积,该方法在 Pascal Context 数据集(53.13% 的 mIoU)和 ADE20K 数据集(最终分数 0.5584)上都达到了当前最佳水平,同时运行速度快了两倍。

方法

在这部分中,研究人员首先介绍了最流行的语义分割方法 DilatedFCN,然后用新型联合上采样模块 JPU 改进 DilatedFCN 架构。最后,研究者先简单介绍了联合上采样、扩张卷积和步幅卷积,再详细讨论了 JPU 方法。

图 2:本文方法的框架概览。该方法采用了原版 FCN 作为主干网络。在主干之后,研究人员提出了新型上采样模块 JPU,该采样模块将最后三个特征图作为输入并生成了高分辨率特征图。然后使用多尺度/全局上下文模块来生成最终标签图。

图 4:JPU 概览。

实验

表 1:以 ResNet-50 作为主干网络时,多种方法在 Pascal Context 验证集上的性能。

图 6:以 ResNet-50 作为主干网络且使用 Encoding Head 时,不同上采样模块的可视化结果对比。

表 2:计算复杂度对比。FPS 是以 512×512 的图像作为输入在 Titan-Xp GPU 上测量的,该结果是 100 次运行的平均值。

表 3:当前最佳方法在 Pascal Context 验证集上的结果。

表 4:在 ADE20K 验证集上的结果。

表 5:在 ADE20K 测试集上的结果。前两项在 2017 年的 COCO-Place 挑战赛中分别排名第一和第二。

图 7:本文方法 (ResNet-101) 的可视化结果。第一行来自 Pascal Context 验证集,第二行来自 ADE20K 验证集

理论中科院自动化所空洞卷积上采样
4
相关数据
全卷积网络技术

全卷积网络最开始在论文 Fully Convolutional Networks for Semantic Segmentation(2015)中提出,它将传统卷积神经网络最后几个全连接层替换为卷积层。引入全卷积的意义在于它能实现密集型的预测,即在二维卷积下对图像实现像素级的分类,在一维卷积下对序列实现元素级的预测。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

推荐文章
暂无评论
暂无评论~