金字塔注意力网络:一种利用底层像素与高级特征的语义分割网络

目前很多语义分割方法在细节方面做得都不好,近日北京理工、旷视科技、北京大学机器感知重点实验室的研究者提出金字塔形注意力网络,它结合注意力机制和空间金字塔去提取精准的密集特征而用于像素级标注任务,这种方法不再使用复杂化的扩张卷积和人工设计的解码网络。

卷积神经网络的近期发展中,根据其丰富的层级特征和端到端的可训练框架,像素级语义分割方面有了可观的进步。但是在编程高维度代表的过程中,原本像素级的环境背景中的空间分辨率会降低。如图 1 显示,FCN 基线无法在细节部分做出精准预测。第二排图片中,在牛旁边的羊被识别到错误分类之中;以及第一排图片中自行车的把手没有被识别成功。对此我们需要考虑两个具有挑战性的问题。

第一个问题在于不同比例的物体很难被分类到同一类别之中。要解决这个问题,PSPNet[33] 或者 DeepLab[2] 系统需要在不同的网格尺度或者扩张 ASPP 率(Atrous Spatial Pyramid Pooling)中执行空间金字塔池化。在 ASPP 模块中,扩张卷积是一种可能会产生网格误差的稀疏计算。此外,PSPNet 中的金字塔池化(pyramid pooling)模块也可能会降低像素级的定位信息。根据 SENet[8] 和 Parsenet[18] 提供的灵感,我们尝试为从 CNN 提取出的高级特征抽取精准的像素级注意力。图 1 中显示的金字塔池化模块可以增加感受野并更高效地分类细节。

图 1:VOC 数据集的视觉化结果 [5]。如图所示,FCN 基础模型难以在细节部分做出准确预测。第一排图片中自行车的把手没有被识别成功,第二排图片中在牛旁边的羊被识别到了错误类别。本论文提出的特征金字塔注意力(FPA)模块和全局注意力上采样(GAU)模块设计用于提升感受野和高效地恢复像素定位细节。

另一个问题在于高级特征更适用于做类别分类,但不适用于重建原始分辨率的二元预测。一些 U 型网络如 SegNet、Refinene、Tiramisu 和 Large Kernel Matters,用复杂的解码模块去使用底层信息帮助高级特征恢复图片细节,然而这样的过程需要花费大量时间。要解决这个问题,我们需要一个有效的解码模块,即全局注意力上采样(GAU),它可以抽取高级特征的全局上下文信息,并在不增加过多计算成本的同时引导加权底层特征的信息。

总结来说,我们的论文有三大贡献。首先,我们提出了特征金字塔注意力模块可在 FCN 基础像素预测模型嵌入不同尺度的上下文特征。之后,我们开发了一个高效解码模块 GAU 以帮助语义分割。最后,结合特征金字塔注意力和全局注意力上采样,我们的金字塔注意力网络架构可在 VOC 2012 和 cityscapes 基准上达到当前最优水平。

方法

在这一章中,作者首先会介绍特征金字塔注意力模块和全局注意力上采样模块,之后会描述完整的编码器-解码器网络架构,以及为语义分割任务所设计的金字塔注意力网络。

图 2:金字塔注意力网络总览。我们用 ResNet-101 来提取密集型特征,然后用 FPA 和 GAU 来提取精准的像素级预测和定位细节。图中蓝色线和红色线依次代表下采样和上采样的运算。

特征金字塔注意力

启发自注意力机制,我们考虑如何为从 CNN 提取出的高级特征提供精准的像素级注意力。在目前的语义分割架构中,金字塔结构可以提取出不同尺寸的特征信息并增加像素级的感受野,但是这样的结构缺少全局上下文先验注意力去选择在 SENet 和 EncNet 中的对应通道的特征。另一方面,使用对应通道注意力向量还不足以有效提取多个尺度的特征且缺少像素级的信息。

图 3:特征金字塔注意力模块结构。a)空间金字塔池化结构。b)特征金字塔注意力模块。4×4, 8×8, 16×16, 32×32 表示的是特征图的分辨率。虚线框表示全局池化分支,蓝色线和红色线依次代表下采样和上采样的运算。

全局注意力上采样

我们认为解码模块最主要的特性是去修复类别像素的定位。更多的,多类信息的高级特征可以用于加权底层信息而选择精准分辨率细节。

图 4:全局注意力的上采样模块结构。

实验结果

表 1:特征金字塔注意力的性能细节以及不同设置。『SE』表示用 SENet 注意力模块去替换金字塔结构。对于特征金字塔注意力模块中的金字塔结构,『C333』表示所有卷积核尺寸是 3 × 3。如图 3 所示,『C357』表示所有卷积核尺寸依次是 3 × 3、5 × 5 和 7 × 7。『MAX』 和 『AVE』表示最大池化和平均池化运算。『GP』表示全局池化分支。

表 6: PASCAL VOC 2012 测试集中每一个类别的推断结果。PAN 胜过的目前最优水平并在没有 COCO 数据集预训练的情况下达到 84.0%。

论文:Pyramid Attention Network for Semantic Segmentation

论文地址:https://arxiv.org/pdf/1805.10180.pdf

金字塔注意力网络(PAN)致力于探索全局上下文信息对语义分割的作用。不同于大部分的工作,我们结合注意力机制和空间金字塔去提取精准的密集特征而用于像素级标注任务,这种方法不再使用复杂化的扩张卷积和人工设计的解码网络。具体地,我们引入特征金字塔注意力模块在高级输出特征上执行空间金字塔注意力,并结合全局池化学习一个更完善的特征表示。此外,全局注意力上采样模块在每个解码器层提供全局上下文信息,并指导底层特征选择类别的定位细节。这个方法在 PASCAL VOC 2012 数据集上达到当前最优水平的 IoU 精准度(84.0%),在 Cityscapes 基准也获得当前最优水平的性能,它们都没有在 COCO 数据集上进行预训练。

理论旷视科技北京大学北京理工大学论文自然语言处理
2
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

特征选择技术

在机器学习和统计学中,特征选择(英语:feature selection)也被称为变量选择、属性选择或变量子集选择。 它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。

推荐文章
暂无评论
暂无评论~