徐家兴作者

CVPR 2020 | 用于点云中3D对象检测的图神经网络

论文原文:Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud 论文地址:https://www.aminer.cn/pub/5e5f7c4791e011df604ecb9c

论文背景

本文提出了一个 GNN 用于从 LiDAR 电云中发现对象,为此,作者在固定半径的近邻图中有效地编码了点云,使用 Point-GNN 预测每个点的对象的类别和形状。在 Point-GNN 中,本文提出了一种自动注册机制来减少平移差异,并且设计了一种盒合并和计分操作,以准确地组合来自多个顶点的检测。在KITTI基准上进行的实验表明,本文所提出的方法仅使用点云即可达到领先的准确性,甚至可以超越基于融合的算法,结果证明了使用神经网络作为 3D 对象检测的新方法的潜力。

理解 3D 环境对于机器人感知十分重要,从点云中识别物体对于如自动驾驶之类的应用很有帮助。

CNN 依赖卷积操作识别物体,卷积操作虽然有效,但需要网格化的输入,但点云相较于图片来说更加稀疏并且在网格中分布不均。将点云放置在常规网格上会在网格单元中生成数量不均匀的点。在这样的网格上应用相同的卷积运算会导致拥挤的单元中潜在的信息丢失或空单元中的计算浪费。

最近的一些工作尝试使用无序点集作为输入,这样无需将点云转换为网格。但这样做通常需要迭代采样和分组来创建点集。在大的点云上重复分组和采样可能会在计算上造成高昂的成本,因此最近的一些 3D 检测方法通常采用混合的方法在不同阶段分别使用网格或集合表示,但这种混合的策略可能会同时受到这两种表示方法的限制。

本文提出用图的形式来表示点云,并设计了 Point-GNN 来进行目标检测。具体来说,将点云中的点作为图的顶点,并与周围一定半径内的其他点进行连边,从而允许特征在邻居之间流动。这样的图表示可以直接适应点云的结构而无需将其转化为其他的形式。GNN 在每层中会重新使用图中的边,以避免重复对点进行分组和采样。本文提出的 Point-GNN 将点云作为输入,输出每个顶点所属的对象类别和边界框,从而一次性检出多个物体,同时引入了一种自动注册机制,以根据特征自动对齐坐标,设计了框合并以及积分操作,以准确的组合来自多个顶点的检测结果。

本文的主要贡献有以下几个方面:
1. 提出了一种使用 GNN 的点云物体检测方法;
2. 使用带有自动注册机制的 Point-GNN 实现一次检测多个物体;
3. 在 KITTI benchmark 上达到了 SOTA 的 3D 对象检测精确度,并深入分析了每个组件的有效性。


论文模型

模型的整体结构如下图所示,分为三个组件:1)图构建;2)T次迭代的GNN;3)边界框合并和评分。

图构建

带自注册机制的GNN


Loss

边界框合并和评分

由于多个顶点可以位于同一对象上,因此神经网络可以输出同一对象的多个边界框。必须将这些边界框合并为一个,并分配一个置信度分数。非最大抑制(NMS)已被广泛用于此目的。通常的做法是选择具有最高分类分数的框,然后隐藏其他重叠的框。但是,分类分数并不总是反映定位质量。明显地,部分被遮挡的物体可能具有指示该物体的类型的强烈线索,但是缺乏足够的形状信息。标准 NMS 可能仅基于分类分数就选择了不准确的边界框。所以作者在合并的过程中同时考虑到了重叠边界框的中位数位置和大小:

实验

结论

本文提出了一种名为 Point-GNN 的神经网络,用于从点云的图形表示中检测 3D 对象。通过图表示紧凑地对点云进行编码,而无需映射到网格或重复采样和分组。Point-GNN 在 KITTI benchmark 的 3D 和鸟瞰图对象检测方面均达到领先的精度。实验表明,提出的自动配准机制减少了过渡方差,并且在框合并和评分操作提高了检测精度。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论CVPR 2020
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~