李灏峰(香港大学)作者

ICCV 2019 | 港大提出视频显著物体检测算法MGA,大幅提升分割精度

本文解读了香港大学联合中山大学和深睿医疗人工智能实验室 ICCV2019 论文《Motion Guided Attention for Video Salient Object Detection》。

论文地址:

https://arxiv.org/pdf/1909.07061.pdf

代码地址:

https://github.com/lhaof/Motion-Guided-Attention

该文提出了基于运动注意力的视频显著物体检测方法(MGA),比之前最好的算法在DAVIS和FBMS数据集上分别提升了4个和8个百分点!

研究背景

显著物体检测问题要求对于每张图片或视频帧,预测一个二类别的像素级分割结果,用以表征图片中的显著或前景物体。

该问题常作为计算机视觉与图形学应用的预处理步骤。

随着深度学习技术的发展,面向图片的显著物体检测方法被广泛研究,而面向视频的显著物体检测有待进一步探索。

为了解决视频的显著物体检测,该论文作者有以下观察:

其一,视频物体的显著性由其外观和运动共同决定,显著物体的运动往往也是显著的,显著运动的区域很可能是显著物体;

其二,物体的运动蕴含空间连贯性信息,运动状态相似的相邻区域很可能同属于一个物体或者背景;

其三,利用运动信息的空间连贯性,有助于分离物体和背景。背景外观可包含纹理不同的多个区域,而物体可包含内部边缘及不同外观的部件,这造成了分割的困难。而表征运动的光流图片相对“干净”(如图1b),可更好地捕捉部分物体边界,成为分割显著物体的契机。

目前现有方法主要通过循环神经网络聚合多个视频帧的卷积特征,或者利用光流和变形来对齐不同帧的特征,而没有通过端到端学习来捕捉和利用光流中的显著运动。

作者提出一系列运动注意力模块,来建模显著运动如何结合外观信息来影响物体显著性。作者还提出了一个双分支网络,用以放置上述注意力模块,来实现视频显著物体检测。

图1

运动引导的注意力机制

为了建模显著运动如何结合外观信息来影响物体显著性的,作者将外观信息抽象为三维的外观特征张量(可为某个ReLU隐层的输出),将显著运动抽象为二维的运动显著图(如某个sigmoid隐层的输出)或者三维的运动特征张量

首先考虑最简单的情况,如何用一张二维的运动显著图来“关注”三维外观特征的重要位置。

一个直观的朴素模型是将运动显著图与外观特征逐位相乘,来加强外观特征中运动显著的区域的响应。但这个朴素模型的缺点在于,运动显著图中的零元素会“抑制”外观特征中运动不显著或者静止的区域,从而导致物体分割不完整的情况出现。

为了解决朴素模型的缺点,作者提出模型一:采用残差结构,将被加权后的外观特征与最初的外观特征逐位相加,补充回错误抑制的外观信息,使后续的神经网络层有机会勾勒出完整物体。

下面考虑如何利用三维运动特征来关注外观特征。一个简单方案是模仿模型一,与外观特征逐位相乘相加,区别在于要先采用一个1x1卷积来对齐运动特征和外观特征的形状,这样得到模型二。

模型二可以看作是用一个三维权重同时实现空间和通道注意力的机制。但由于运动特征来源于信息量较“稀疏”的光流图片,缺乏纹理信息和复杂语义,基于这样的特征对外观特征进行通道注意力,可能引入额外噪声或导致过拟合

一个备选方案是运动特征仅用于空间注意力,即先用一个1x1卷积和sigmoid从运动特征预测出运动显著图,在进行类似模型一的操作,这样得到模型三。

图2

最后,基于模型二和三,考虑如何实现合理的通道注意力,作者提出了模型四。

模型四先用运动特征对外观特征进行空间注意力,“空间注意”后的外观特征经由全局平均池化得到一个一维向量,该向量可表征显著运动区域的外观特征。

由于物体的运动和静止部分有较一致的外观属性(如色彩、纹理、语义),那么基于上述运动区域的外观特征向量预测出的一维的通道注意力权重,可有效提高物体静止部分相应属性或通道的响应,从而有助于分割出完整物体。

模型四的末端保留残差结构,以避免零元素“抑制”的问题。

运动引导注意力网络(MGAnet)

图3

接下来,作者提出一个运动引导注意力网络(MGAnet),一方面用来提取前述外观特征、运动特征以及运动显著图,另一方面用来结合前面提出的一系列运动注意力模块,从而形成完整的视频显著物体检测方法。

MGAnet是一个基于DeepLab-V3+的双分支网络。目前不少视频分割方法也采取双分支结构,但主要在各分支末端进行融合,而MGAnet采用多层次的、密集的方式连接两个分支。

MGAnet包含一个以RGB图像为输入的外观分支,一个以光流可视化图片为输入的运动分支,以及连接两分支的6个注意力模块MGA-{0-5}。外观分支的编码器可为ResNet-101或ResNet-50,运动分支的编码器可为ResNet-34或ResNet-18,不同组合均可达到SOTA的性能。

MGA-{0-5}可看作部署注意力模块的“槽”,其中MGA-5仅可采用模型一(运动信息是二维显著图),MGA-0至MGA-4可采取模型二三四中的某一种,一般采用同一种。

实验结果

下文报告几个主要的实验。第一个实验将MGA与现有的视频及图片的显著物体检测方法在三个数据集DAVIS、FBMS和ViSal上比较。

其中,ViSal中并没有划分出训练集供模型训练,能较好地反映模型的泛化能力。

与6个视频模型和11个图片模型相比,MGA在三个数据集上均表现最优,分别获得4个、8个、1个百分点的MaxF的领先。

表1

第二个实验验证网络结构的有效性。作者尝试单独地训练、测试单个分支,其中独立的外观分支等价于语义分割中的SOTA模型DeepLab-V3+;

作者还尝试仅保留编码器部分(MGA-E)或者解码器部分(MGA-D)的注意力模块。实验结果显示,双分支结构有效利用了运动信息,优于任一单分支网络。

注意力模块部署在编码器端或解码器端,均能起到效果,同时部署在编码器和解码器端可获得最佳性能。

第三个实验验证四个运动注意力模块的有效性。三种朴素的特征融合方法,包括逐位相乘、逐位相加和沿通道拼接(concatenate),被作为基线方法。

表3中,“E-”表示部署在编码器端,“D-”表示部署在解码器端。实验结果显示,四种注意力模块均优于基线方法。

其中,较复杂的模型四(MGA-tmc)略优于模型二(MGA-t)和模型三(MGA-tm)。

表2

表3

总的来说,作者利用运动的空间连贯性,采用注意力机制来建模运动对物体显著性的影响,提出了一个简单但准确率高的双分支网络。

与基于循环神经网络的方法不同,该方法利用一个极小时间窗内的时序上下文(即与相邻帧的光流),取得了SOTA的性能。

本文是对原文主要方法和实验的解读,更多细节请参见原文:

https://www.aminer.cn/research_report/articlelist

我爱计算机视觉
我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播计算机视觉与机器学习技术的业内最佳实践。

理论ICCV 2019
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

推荐文章
暂无评论
暂无评论~