芦新峰作者H4O编辑

CVPR 2019 Tutorial: Facebook研究院视觉研究的最新进展

作者介绍:本文作者芦新峰,吉林大学在读硕士,主要研究方向为目标检测。 

导读】作为计算机视觉领域的三大顶会之一,第32届计算机视觉模式识别会议(CVPR)于6月16日在美国加州长滩召开。Facebook研究院在该会议上介绍了他们在视觉领域的最新进展。本文对他们的Tutorial进行简要解读,并在文章最后附上会议全文PPT。

在该Tutorial中,四位汇报人分别讲述了他们在图像分割、二维目标检测、三维目标检测以及视频检测分类领域的最新进展。

1.图像分割

报告简介

该报告可以分为两部分,第一部分主要讲述了图像分割领域近十年的发展、该领域的开源数据集以及图像分割模型的评估指标。第二部分讲述了由Facebook研究院提出的用于进行全景分割的Panoptic FPN网络。

全景分割可以看作是语义分割实例分割的结合体,语义分割对每个像素点进行分类,但是对于同一物体的不同实例个体则不需要再细分;实例分割是对待检测的目标进行分割,并且需要区分同一物体的不同实例个体;而全景分割则是对图中的所有物体进行分割,并且需要区分同一物体的不同实例个体。

Panoptic FPN网络是由FCN语义分割网络与Mask R-CNN实例分割网络结合而来,兼具稳健性和准确性。由于其有效性和概念的简单性,有望成为全景分割领域后续发展的基础。

汇报人简介

People_AlexanderKirillov.jpgAlexander Kirillov

Alexander Kirillov是Facebook AI Research(FAIR)的研究科学家,致力于计算机视觉。他于2018年在德国海德堡大学获得计算机科学博士学位。他的主要研究兴趣是视觉推理和结构化计算机视觉问题。

报告内容简介

Screenshot from 2019-08-22 09-15-45.pngScreenshot from 2019-08-22 09-17-36.png

【全景分割的发展】

Screenshot from 2019-08-22 09-23-21.png 【全景分割开源数据集】

Screenshot from 2019-08-22 09-24-39.png【评估指标】

该PPT展示了全景分割的评价标准PQ,在该表达式中,SQ表示预测的分割结果与样本标注的分割结果的mIoU,只有当mIoU的值大于0.5时,才认为分割正确;RQ是目标检测常用的F1评价指标,是召回率和精度的调和平均。

【Panoptic FPN】

该模型的结构如下所示,在保持FPN主干网络不变的同时,引入了一条与Mask R-CNN分支并行的分支进行语义分割

Screenshot from 2019-08-22 09-31-46.png该分支的结构如下所示,最顶层的输入来自FPN最底层的输出,并通过上采样操作恢复至特征图的四分之一大小。每个上采样阶段由一个3×3的卷积层,一个组归一化,一个ReLU激活函数以及一个两倍双线性内插上采样组成。最后通过1×1卷积层和一个四倍双线性内插上采样恢复到原来的尺寸并使用sofrmax来生成类别标签。

Screenshot from 2019-08-22 09-32-39.png 【实验结果】

Screenshot from 2019-08-26 20-46-34.png

2.二维目标检测

报告简介

该报告可分为三个部分:目标检测简要介绍、通用的R-CNN框架以及目标检测领域存在的挑战。

目标检测的任务是识别图中的物体、给出物体的类别以及物体的位置。目前基于深度学习目标检测算法主要有两大类,一类是以SSDYOLO为代表的一阶段检测算法,一类是以R-CNN为代表的二阶段检测算法。一阶段检测算法速度快,单精度较低;二阶段检测算法精度高,但是速度较慢。汇报人在该报告上主要介绍了以R-CNN为代表的二阶段检测算法的发展。

在报告的最后,汇报人提出了目标检测存在的挑战以及为了应对该挑战他们团队所创建的数据集 —— Large Vocabulary Instance Segmentation (LVIS)。

汇报人简介

1190634.jpegRoss Girshick

Ross Girshick是Facebook AI Research(FAIR)的研究科学家,致力于计算机视觉机器学习,他于2012年在芝加哥大学获得计算机科学博士学位。他的主要研究兴趣是视觉感知和视觉推理。

报告内容简介

cvpr2019_tutorial_ross_girshick.pngcvpr2019_tutorial_ross_girshick_1.png 【目标检测的任务】

cvpr2019_tutorial_ross_girshick_2.png 【通用R-CNN框架】

cvpr2019_tutorial_ross_girshick_3.pngR-CNN作为R-CNN系列的第一代算法,既采用了传统计算机视觉的思想,也采用了深度学习的思想。通过Selective Search提取所有的proposals,调整大小后送入神经网络,并将生成的feature map保存在本地。然后利用feature map数据训练SVM,最后进行边界框回归。

Fast R-CNN是基于R-CNN和SPPnets进行的改进,它使用RoI pooling层替换最后一层的max pooling层。RoI pooling是池化层的一种,而且是针对RoI的池化,其特点是输入特征尺寸不固定,但是输出特征图尺寸固定。同时,Fast R-CNN 网络的末尾采用并行的全连接层,可以同时输出分类结果和边界框回归结果。

cvpr2019_tutorial_ross_girshick_6.png Faster R-CNN的设计与Fast R-CNN相同,但采用了新的网络(RPN)代替了原来的候选区域方法。RPN以第一个卷积网络的输出特征图作为输入,通过在特征图上滑动一个3×3的卷积核来构建与类别无关的候选区域。

cvpr2019_tutorial_ross_girshick_7.png Mask R-CNN是一个实例分割模型,该模型由ResNext、RPN、RoI Align、Fast R-CNN以及FCN几部分组成。RoI Align是在Mask R-CNN中提出的一种区域特征聚集方法,很好地解决了RoI pooling操作中量化造成的像素不匹配问题。

cvpr2019_tutorial_ross_girshick_8.pngcvpr2019_tutorial_ross_girshick_4.png 【存在的挑战】

cvpr2019_tutorial_ross_girshick_9.png 【LVIS数据集】

cvpr2019_tutorial_ross_girshick_10.png

3. 三维目标检测

报告简介

该报告可以分为五部分,第一部分主要介绍了三维图形的表示方法,如体素、点云、三角网格等;第二部分介绍了一些评估指标,如IoU(Intersection over Union)、倒角距离(Chamfer Distance)、F1得分;第三部分介绍了正则坐标(Canonical Coordinates)存在的缺陷,并指出应该使用观察坐标(View Coordinates)进行预测;第四部分介绍了开源的三维图形的数据集;最后一部分,同时也是本报告最重要的一部分,介绍了汇报人提出的三维目标检测网络 —— Mesh R-CNN。

Mesh R-CNN是在Mask R-CNN的基础上改进而来,该网络在二维图像上检测不同的物体,同时生成该物体对应的三角网格,从而实现了三维物体的目标检测

汇报人简介

图片1.pngJustin Johnson 

 Justin Johnson是Facebook AI Research的研究科学家,他在斯坦福大学获得博士学位并于2019年秋季开始担任密歇根大学计算机科学与工程系的助理教授。他的主要研究方向为视觉推理、视觉和语言以及使用深度神经网络生成图像。

报告内容简介

cvpr19-3d_0.png 【三维图形表示方法】

cvpr19-3d_1.png体素是体积像素的简称,它是三维空间上最小的分割单位,可以用体素来表示三维图形。它的优点是概念简单,缺点是需要高空间分辨率信息来捕捉精细结构。3D-R2N2是一个3D重建模型,它的输入是待重建物体任意视角的图片,输出为以体素表示的物体。

该网络由2D卷积网络、3D卷积LSTM以及3D反卷积网络组成,给定来自任意视角的一张或多张图片,2D卷积单元先将每个输入图片编码到低维特征,然后将低维特征送入3D卷积LSTM单元,通过关闭输入门选择性地更新单元状态或保持单元状态,最后通过3D反卷积解码LSTM单元的隐藏状态并完成3D目标体素重建。

cvpr19-3d_3.png占用网络(Occupancy Networks)就是一个用隐函数来表示3D图形的网络模型,该网络可以将3D图形的表面表示为神经网络分类器的连续决策边界。该网络等同于一个二分类网络模型,输出结果是该点位于3D图形内部的概率。

点云是一种简单、统一的结构,使用点云表示3D图形的优点是不需大量点即可表示精细结构,但是该方法需要新的体系结构和损失函数,而且该方法不能明确的表示3D图形的表面,如果要为渲染或其他应用程序提取网格需要进行后续处理。在用点云表示3D图形的方法中,一般采用倒角距离(Chamfer distance)来衡量点集之间的距离。
cvpr19-3d_5.png 使用三角网格来表示3D图形由许多优点,首先,它是图形的标准表示方法;其次,它能明确地表示3D图形以及3D图形的表面;再者,可以在顶点上附加数据并在整个表面上进行插值(如RGB颜色、纹理坐标、法线向量等)。Pixel2Mesh就是一个可以从单张彩色图片直接生成三维网格的深度学习网络模型。该模型采用图卷积神经网络,利用从输入图像中获取的特征逐步对椭球体网格进行变形从而产生正确的几何图形。该模型的损失函数为预测样本与真实样本之间的倒角距离(Chamfer distance)。cvpr19-3d_6.png 【评估指标】cvpr19-3d_7.png 【坐标比较】正则坐标存在对训练图形过拟合的情况,不容易推广到新的图形或新的类别,因此作者认为应该在观察坐标(view coordinates)中对图形进行预测。cvpr19-3d_8.png 【Mesh R-CNN】Mesh R-CNN模型是在Mask R-CNN的基础上改进而来,该模型可以对单张彩色图像中的物体进行检测,并输出所检测物体对应的三角网格。

该网络使用新的网格预测器来推断3D形状,包括体素分支和网格细化分支。体素分支首先估计对象的粗略3D体素,之后被转换为初始三角形网格。 然后,网格细化分支使用在网格边缘上操作的一系列图形卷积层来调整该初始网格的顶点位置。体素分支和网格细化分支与Mask R-CNN的Box/Mask分支是同源的。该模型的输出是一组框以及对应的预测目标分数、掩码以及3D图形。

cvpr19-3d_10.png 该模型的损失函数由四部分组成:实例分割损失函数、体素损失函数、网格损失函数以及网格正则化

cvpr19-3d233.pngcvpr19-3d_11.png

4.视频分类与检测

报告简介

本报告可以分为两部分,第一部分简要介绍了一些与视频分类与检测相关的背景知识,如双流卷积网络、二维网络到三维网络的变换、三维卷积网络以及Non-Local Convolutional Network Blocks等。第二部分主要介绍了汇报人提出的视频识别网络 —— SlowFast Netowrk。

SlowFast网络由两条网络组成,Slow网络,输入为低帧率,用来捕获空间语义信息;Fast 网络,输入为高帧率,用来捕获运动信息。该网络在Kinetics-400上达到了79%的精度,在AVA上也达到了28.3mAP,处于行业最高水平。

汇报人简介

christoph.jpgChristoph Feichtenhofer

Christoph Feichtenhofer是Facebook AI Research的研究科学家,他于2017年在格拉茨科技大学获得博士学位。他的主要研究方向为计算机视觉机器学习,研究重点是动态场景理解。

报告内容简介

Screenshot from 2019-08-22 15-03-58.png 【研究背景】

下图为经典的双流卷积网络,一条分支负责捕捉空间信息,另一条负责捕捉时间信息。最后将两个分支的softmax分数进行融合,融合的方法有取平均值和训练以叠加的L2标准化softmax分数为特征的多层线性支持向量机

Screenshot from 2019-08-22 15-04-33.png下图为ST-ResNet的原理图,带有叉号的箭头连通了双流网络的两个分支,将二维空间卷积网络部分拓展到时间域,使得一个网络可以同时学习时间和空间信息。

Screenshot from 2019-08-27 20-40-34.png 3D卷积网络与2D卷积网络相比,其卷积核多了一个维度T,这个维度T既可以表示为视频上的连续帧,也可以表示为立体图像中的不同切片。

Screenshot from 2019-08-22 15-05-47.png 一般的卷积操作是对局部特征进行加权求和,而Non-local Convolutional Network Blocks是对全局特征进行加权求和。下图展示的是该模块的嵌入式的高斯版本,带有一个512个通道的bottleneck。其中,⊗表示矩阵相乘,⊕表示元素相加,每行都进行softmax操作。

Screenshot from 2019-08-22 15-06-09.png 【SlowFast Networks】

Screenshot from 2019-08-22 15-07-12.pngSlow分支,输入低帧率低时间分辨率信息,Fast分支,输入高帧率、α倍的高时间分辨率信息,Fast分支使用β倍的通道数来对该分支进行加速,这两个分支都采用3D卷积操作。下图展示了该网络的基本结构,该网络最后通过横向连接对结果进行融合。

SlowFast网络的一个实例。
Screenshot from 2019-08-22 15-08-09.png SlowFast网络的实验评估结果如下,该网络在两个数据集上都取得了迄今为止最好的结果。Screenshot from 2019-08-22 15-09-38.png Screenshot from 2019-08-22 15-09-55.pngPPT全文打包下载:链接:https://pan.baidu.com/s/1EC0o0LHiNDGnm-JTMHMnUw
提取码:kf1a

机器之心技术分析师专栏
机器之心技术分析师专栏

由来自世界各地的专业分析师为你解读前沿进展,技术热点和经典论文。我们的分析师团队由来自于各大名校的硕士和博士,以及一线研究机构的研究员组成。

理论视频检测目标检测图像分割
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

YOLO技术

YOLO 模型最早是由 Joseph Redmon 等人在 2015 年发布的,并在随后的两篇论文中进行了修订。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

决策边界技术

在具有两类的统计分类问题中,决策边界或决策曲面是一个超曲面,它将底层的向量空间分成两组,每组一个。分类器会将决策边界一侧的所有点分为属于一个类,而另一侧属于另一个类。也即二元分类或多类别分类问题中,模型学到的类别之间的分界线。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

图卷积神经网络技术

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。GCN的三个主要特征:它是卷积神经网络在 graph domain 上的自然推广;它能同时对节点特征信息与结构信息进行端对端学习;适用于任意拓扑结构的节点与图;

推荐文章
暂无评论
暂无评论~