Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

MMLab@NTU机器之心专栏

ECCV 2022|全场景图生成PSG:追求「最全面」的场景理解

本文提出基于全景分割的全场景图生成(panoptic scene graph generation,即PSG)任务。相比于传统基于检测框的场景图生成任务,PSG任务要求全面地输出图像中的所有关系(包括物体与物体间关系,物体与背景间关系,背景与背景间关系),并用准确的分割块来定位物体。PSG任务旨在推动计算机视觉模型对场景最全面的理解和感知,用全面的识别结果更好地支撑场景描述、视觉推理等下游任务。同时PSG数据集提供的关系标注和全景分割也为解决当前图像生成领域对关系不敏感的问题创造了新的机遇。

研究背景

当下大多数的计算机视觉任务仍然只关注于图像感知。比如说,图像分类任务只需要模型识别图像中的物体物体类别。虽然目标检测图像分割等任务进一步要求找到物体的位置,然而,此类任务仍然不足以说明模型获得了对场景全面深入的理解。以下图为例,如果计算机视觉模型只检测到图片中的人、大象、栅栏、树木等,我们通常不会认为模型已经理解了图片,而该模型也无法根据理解做出更高级的决策,例如发出 “禁止投喂” 的警告。

图片

事实上,在智慧城市、自动驾驶、智能制造等许多现实世界的 AI 场景中,除了对场景中的目标进行定位外,我们通常还期待模型对图像中各个主体之间的关系进行推理和预测。例如,在自动驾驶应用中,自动车需要分析路边的行人是在推车还是在骑自行车。根据不同的情况,相应的后续决策可能都会有所不同。在智能工厂场景中,判断操作员是否操作安全正确也需要监控端的模型有理解主体之间关系的能力。大多数现有的方法都是手动设置一些硬编码的规则。这使得模型缺乏泛化性,难以适应其他特定情况。

图片

场景图生成任务(scene graph generation,或 SGG)就旨在解决如上的问题。在对目标物体进行分类和定位的要求之上,SGG 任务还需要模型预测对象之间的关系(见图 2)。传统场景图生成任务的数据集通常具有对象的边界框标注,并标注边界框之间的关系。但是,这种设置有几个固有的缺陷:(1)边界框无法准确定位物体:如图 2 所示,边界框在标注人时不可避免地会包含人周围的物体;(2)背景无法标注:如图 2 所示,大象身后的树木用 bounding box 标注,几乎覆盖了整个图像,所以涉及到背景的关系无法准确标注,这也使得场景图无法完全覆盖图像,无法达到全面的场景理解。

论文介绍

因此,来自新加坡南洋理工大学和商汤科技的研究者提出全场景图生成(PSG)任务,携同一个精细标注的大规模 PSG 数据集。该任务利用全景分割来全面准确地定位对象和背景,从而解决场景图生成任务的固有缺点,从而推动该领域朝着全面和深入的场景理解迈进。

图片

  • 论文地址:https://arxiv.org/abs/2207.11247

  • 项目地址:https://psgdataset.org/

  • OpenPSG开源代码链接: https://github.com/Jingkang50/OpenPSG

图片

HuggingFace Demo 链接:https://huggingface.co/spaces/ECCV2022/PSG


PSG 数据集

该研究提出的 PSG 数据集包含近五万张 coco 的图片。基于 coco 已有的全景分割标注,该研究标注了分割块之间的关系,并精细地定义了 56 种关系,包括了位置关系(over,in front of,等),常见的物体间关系(hanging from 等),常见的生物动作(walking on,standing on,等),人类行为(cooking 等),交通场景中的关系(driving,riding 等),运动场景中的关系(kicking 等),以及背景间关系(enclosing 等)。该研究要求标注员能用更准确的动词表达就绝不用更模糊的表达,并且尽可能全地标注图中的关系。

图片

PSG 模型效果展示

PSG 任务优势

下图的例子可以说明全场景图生成(PSG)任务的优势:

图片

左图来自于 SGG 任务的传统数据集 Visual Genome (VG-150)。可以看到基于检测框的标注通常不准确,而检测框覆盖的像素也不能准确定位物体,尤其是椅子,树木之类的背景。同时,基于检测框的关系标注通常会倾向于的标注一些无聊的关系,如“人有头”,“人穿着衣服”。相比之下,右图中提出的 PSG 任务提供了更全面(包括前景和背景的互动)、更清晰(合适的物体粒度)和更准确(像素级准确)的场景图表示,以推动场景理解领域的发展。

两大类PSG方法

为了支撑 PSG 任务,研究者搭建了一个开源代码平台 OpenPSG,其中实现了四个双阶段的方法和两个单阶段的方法,方便大家开发、使用、分析。

图片

双阶段的方法利用 Panoptic-FPN 在第一阶段中对图像进行全景分割。接下来该研究提取了全景分割得到的物体的特征以及每一对物体融合的关系特征,送至下一阶段的关系预测阶段。框架已集成复现了传统场景图生成的经典方法 IMP,VCTree,Motifs,和 GPSNet。

图片

PSGTR 是基于 DETR 的单阶段方法。模型首先在 a)中通过卷积神经网络 backbone 提取图片特征并加以位置编码信息作为编码器的输入,同时初始化一组用以表示三元组的 queries。与 DETR 类似地, 在 b)中模型将编码器的输出作为 key 和 value 与表示三元组的 queries 一同输入解码器进行 cross-attention 操作。随后模型在 c)中将解码完成的每个 query 分别输入主谓宾三元组对应的预测模块,最后得到对应的三元组预测结果。

图片

PSGFormer是基于双decoder DETR的单阶段方法。模型在 a) 通过 CNN 提取图片特征,加以位置编码信息输入编码器,同时初始化了两组 queries 分别代表物体和关系。接着在 b)步骤里,模型基于编码器编码的图片信息,分别在物体解码器和关系编码器中通过 cross-attention 解码学习物体 query 和关系 query。当两类 query 均学习完毕后,在 c)中通过映射后匹配,得到成对的三元组 query。最后在 d)中通过预测头分别完成关于物体 query 和关系 query 的预测,并根据 c)中的匹配结果得到最终的三元组预测结果。

PSGTR 与 PSGFormer 都是在 DETR 的基础上进行扩展和改进的模型,不同的地方在于 PSGTR 用一组 query 对于三元组直接建模而 PSGFormer 则通过两组 query 分别对物体和关系建模,两种方法各有利弊,具体可参考论文中实验结果。

总结和展望

1. 大部分在 SGG 任务上有效的方法在 PSG 任务上依旧有效。然而有一些利用较强的数据集统计先验,或主谓宾中谓语方向先验的方法可能没那么奏效。这可能是由于 PSG 数据集相较于传统 VG 数据集的 bias 没有那么严重,并且对谓语动词的定义更加清晰可学。因此,研究团队希望后续的方法关注视觉信息的提取和对图片本身的理解。统计先验可能在刷数据集上有效,但不本质。

2. 相比于双阶段模型,单阶段模型目前能达到更好的效果。这可能得益于单阶段模型有关于关系的监督信号可以直接传递到 feature map 端,使得关系信号参与了更多的模型学习,有利于对关系的捕捉。但是由于本文只提出了若干基线模型,并没有针对单阶段或双阶段模型进行调优,因此目前还不能说单阶段模型一定强于双阶段模型。这还希望参赛选手继续探索。

3. 相比于传统的 SGG 任务,PSG 任务基于全景分割图进行关系配对,要求对于每个关系中主宾物体的 id 进行确认。相比于双阶段直接预测全景分割图完成物体 id 的划分,单阶段模型需要通过一系列后处理完成这一步骤。若基于现有单阶段模型进一步改进升级,如何在单阶段模型中更有效的完成物体 id 的确认,生成更好的全景分割图,仍是一个值得探索的话题。

最近大火的基于文字输入的生成模型(如 DALL-E 2) 的画作着实令人惊叹,但是也有研究表明,这些生成模型可能只是把文本中的几个实体粘合在一起,甚至都没有理解文本中表述的空间关系。如下图,虽然输入的是 “杯子在勺子上”,生成的图片仍然都是 “勺子在杯子里”。

图片

正巧,PSG 数据集标注了基于 mask 的 scene graph 关系。我们可以利用 scene graph 和全景分割 mask 作为训练对,得到一个 text2mask 的模型,在基于 mask 生成更细致的图片。因此,PSG 数据集有可能也为注重关系的图像生成提供了潜在的解决方案。

理论全场景图生成
相关数据
图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

场景图生成技术

场景图生成指从给定图像中生成场景图的任务。

推荐文章
暂无评论
暂无评论~