旷视科技作者

旷视等Oral论文提出GeoNet:基于测地距离的点云分析深度网络

基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的。为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云所潜在表征的网格曲面特征。

为证明这种学习型的测地表示的有效性,旷视西雅图研究院、UCLA 等机构提出一种融合方案,即把 GeoNet 与其他 baseline 和 backbone 相结合,比如 PU-Net、PointNet++,用于若干对潜在网格曲面特征理解有较高要求的点云分析任务。

得益于对潜在曲面拓扑结构的理解,这一方法在点云上采样、法向量估计、网格重建及非刚性形状分类等多项经典任务上取得了新的当前最优结果。该项工作已收录为 CVPR 2019 Oral 论文。

论文:GeoNet: Deep Geodesic Networks for Point Cloud Analysis

论文链接:https://arxiv.org/pdf/1901.00680.pdf

简介

拓扑估计,即确定点云之中不同点的邻域关系,是一个很重要的问题,因为它指示着可进一步揭示点云语意和功能信息的潜在的点云结构。

图 1:GeoNet 方法示意图,其输入是一个点云,然后输出相应的表示用于多项点云分析任务。

如图 1 左边红色插框所示:这两个点集,尽管看起来不相连,但实际上应该相连为一个椅腿,作为整个椅子的一部分。另一方面,位于椅子上、下表面的点集,尽管空间上非常聚集,但却不该相连,以避免混淆可坐的上表面和不可坐的下表面。确定这样的拓扑学信息似乎是一个低阶问题,而实际上这是一项充满挑战的任务,需要全局、高阶的知识。

再次回到图 1 中的红色插框,本文由此得出结论,两个点集只有从大量点云学习到统计规则之后才相连,并观察这一类型的诸多物体,伴随着从椅子延伸到地面的相连、垂直的元素。这启发本文采取一种学习的方法来捕捉点云的拓扑学结构。

本文旨在开发一种针对潜在曲面拓扑学和物体几何学的点云数据的表示,进而提出一种利用已学习的拓扑学特征分析测地性点云的方法。

这一表示可捕捉一个点云的不同拓扑学模式,并且这一方法不会改变数据流,因此本文的表示可实现联合学习,与当前最优的 baseline 或 backbone 相结合,比如 PU-Net,PointNet++。

对于第一个目标,本文提出一种测地性邻域估计网络(Geodesic Neighborhood Estimation Network),称之为 GeoNet,通过使用 groundtruth 测地距离作为监督信号来学习深度测地表示。

如图 2 所示,GeoNet 包含两个模块:1)自动编码器,提取每一个点的特征向量;2)测量匹配层(GM),使用潜在特征充当一个已学习的核函数估计测地邻域点。

图 2:GeoNet:测地邻域估计网络。

借助于监督式的测地训练过程,GM 层的中间特征包含丰富的点云拓扑学信息以及固有的曲面属性。本文注意到,尽管表示在测地距离上训练,但由于没有施加对称性、三角不等式等基于距离的约束,所学得的表示暂时并不适合作为标准测地距离。表示的目标是为整体几何学和拓扑学的后续处理过程提供点云潜在的网格曲面特征信息,而不是直接进行指标计算。

对于第二个任务,如图 3 所示,本文提出测地融合方案,从而把 GeoNet 整合进当前最优的架构之中,完成不同的任务。

图 3:PU-Net(上)和 PointNet++(下)测地融合方案。

具体而言,本文通过 PU-Net fusion(PUF)进行点云上采样,通过 PointNet++ fusion(POF)进行法向量估计、网格重建以及非刚性形状分类。

实验表明,这种来自 GeoNet 的已学习的测地表示同时有助于几何学和语义点云分析。

方法

问题陈述

本文用表示一个点云,其中,并且。尽管问题和方法是普遍性的,本文仅使用欧式坐标作为输入,聚焦于 d=3 的情况。点 x_i 的半径 r 之内的邻域子集表示为,其中是点 x_i 和 x_j之间的欧式距离。的系数是 K,x_i 的相应测地距离集合表示为,其中代表测地距离。本文的目标是学习函数,把每个点映射到其周遭的测地距离集合(的近似集合)。

方法

本文通过训练 GeoNet 学习上述定义的函数 f。它包含一个带有跳跃式连接(skip connections)的自动编码器层,以及一个多尺度的测地匹配层(GM),起到利用点集潜在的空间特征的作用。

GeoNet 借助集合 X 不同点之间的 groundtruth 测地距离实现监督式训练。为证明 GeoNet 表示的可用性,本文在一些需要理解潜在的表面拓扑学的经典任务上测试了该方法,具体包括点云上采样、法向量估计、网格重建以及非刚性形状分类。

为此,本文还结合了专为上述问题而设计的当前最优的架构。比如,使用 PU-Net 作为 baseline 用于点云上采样,把 PointNet++ 用于其他任务,这两种测地融合方法分别称之为 PU-Net fusion (PUF) 和 PointNet++ fusion (POF),通过与 GeoNet 的整合,解决测地相关的点云分析问题。

测地相邻估计

如图 2 所示,GeoNet 包含两个模块:自编码器提取每个点的特征向量;GM 层利用潜在的特征充当一个已学习的测地核函数评估

特征提取。本文使用 PointNet++ 变体提取特征,它把一个输入点集映射到特征集。为恢复点云的特征,本文还使用了带有跳跃连接的编码器。该编码器包含递归应用的三线性特征转换器,并共享全连接层、ReLU 和批归一化。所得到的(N,3+C)张量接着被馈送至 GM 层用于测地邻域估计。

测地匹配。本文把不同半径下的潜在特征归组为邻域特征集合。针对每个半径设置一个最大数量的邻域点,从而得到一个维的向量。归组的特征,连同潜在的特征,输入到一个测地匹配模块,所得特征成为一组带有 ReLU、批归一化Dropout 的共享 FC 层的输入。最后,GM 层为输入点云的每个点反馈一个测地核函数评估。

本文使用一个多尺度的对比 groundtruth 测地距离及其评估:

测地融合

为证明这一学习的测地表示可用于点云分析,本文结合针对不同任务的当前最优(SOTA)架构给出了新的融合方法。主要是基于 PU-Net 提出 PU-Net fusion (PUF),基于 PointNet++ 提出 PointNet++ fusion (POF)。

PU-Net 测地融合。如图 3 上半部分所示,输入点集(N,d)并将其馈送至两个分支:Multi-scale Grouping 和 GeoNet。

接着, 融合张量被馈送至 PointNet 以生成一个  向量。剩余的层则来自 PU-Net。如图 3 红框所示,这个损失函数有两个权重项:

其中,L_geo 用于 GeoNet 训练,L_task 是本文当前目标任务的损失函数。在这种情况下,目标是点云上采样。PUF 上采样把一个随机分布的稀疏点集 X 作为输入,并生成一个统一分布的密集点云上采样因子是

其中第一个项是上采样点集和 groundtruth 密集点云之间的地球移动距离 EMD(Earth Mover Distance):

(3)中第二项是一个排斥损失函数,通过惩罚相近的点对来提升统一的空间分布:

PointNet++ 测地融合。图 3 下半部分给出了基于 PointNet++ 的融合方法的 pipeline。由于 PU-Net 和 PointNet++ 所面向的任务以及架构的不同,本文对 PUF 做了以下改变以设计一种使用 PointNet++ 的适宜的融合策略。

首先,对于 multi-scale grouping,本文使用学习的测地邻域而不是欧氏邻域。其次,尽管 PUF 层把每一邻域点集已估计的融合进 backbone,在 GeoNet 中 POF 层依然使用提取自倒数第二个全连接层的潜在测地特征。第三,在 PointNet++ 融合中,借助最远点采样,本文以分层方式应用 POF 层。

因此,已学习的特征同时编码点集的局部和全局的结构化信息。本文借助 L_1 误差估计点云法向量:

接着,本文使用所估计的法向量通过泊松曲面重建(Poisson surface reconstruction)生成网格。为分类非网格物体的点云,本文使用交叉熵损失函数: 

实验

本文通过评估点云测地邻域对 GeoNet 进行性能测试。为证明已学习的深度测地表示的可用性,本文在一系列对潜在曲面网格特征理解有所要求的点云任务上进行了实验,比如点云上采样、法向量估计、网格重建、非刚性形状分类。

测地邻域估计

通过使用具有 512 个均布点的点云,表 1 展示了 ShapeNet 数据集上的测地距离集合、和估计结果,并给出了多个半径下的平均方误差(MSE)。

表 1。

GeoNet 在 baselines 上有持续提升,代表性结果如图 4 所示。本文方法捕捉到不同的拓扑学模式,比如弯曲面,分层结构,外部/内部部分等等。

图 4:测地邻域估计的表示结果。 

点云上采样

本文在点云上采样任务重测试 PUF,结果如表 3 所示。本文在 3 个指标上与当前最优的点云上采样方法 PU-Net 进行了对比:MSE、EMD 以及倒角距离 CD(Chamfer Distance)。

表 3。

由于测地邻域较于欧氏邻域具有更丰富的潜在点集拓扑学信息,PUF 上采样产生更少的异常值,并复原更多的细节,比如曲线及尖锐结构,如图 5 所示。

图 5:PUF 与 PU-Net 的点云上采样结果对比。

法向量估计及网格重建

本文将 PointNet++ 测地融合方法 POF 应用于法向量估计,接着借已完成的法向量估计做泊松曲面重建。Shrec15 和 ShapeNet 数据集上的法向量估计量化结果如表 4 和表 5 所示。通过对比传统的 PCA 算法和当前最优的深度学习方法 PointNet++,POF 有 10% 左右的相对提升。

表 4。

表 5。

非刚性形状分类

非刚性形状分类的实验结果如表 6 所示。尽管 POF 和 PointNet++ 只把欧式坐标系的点云作为输入,DeepGM 需要在 groudtruth 测地度量空间中利用精确网格数据获取线下计算的固有特征。尽管所用数据信息量更少,但 POF 相较其他方法精度更高。

表 6。

这进一步证明,POF 更适合解决需要理解潜在点云曲面属性的任务。

结论

本文提出 GeoNet,一种全新的深度学习架构,可学习点云基于测地空间的拓扑学结构。其训练过程在 groundtruth 测地距离的监督之下进行,因此已学习的表示可反映出点云所潜在表征的网格曲面特征。

为证明这一拓扑学结构的有效性,本文借助融合方法把 GeoNet 与当前最优的点云分析 baseline 或 backbone 整合为一种计算方案,在点云上采样、法向量估计、网格重建及非刚性形状分类等几何学及语义任务上的实验结果表明,GeoNet 性能优于当前最佳同类方法。

参考文献

1.    L. Yu, X. Li, C.-W. Fu, D. Cohen-Or, and P.-A. Heng. Pu- net: Point cloud upsampling network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni- tion, pages 2790–2799, 2018. 

2.    C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 1(2):4, 2017. 

3.    C.R.Qi,L.Yi,H.Su,andL.J.Guibas.Pointnet++:Deephierarchical feature learning on point sets in a metric space. In Advances in Neural Information Processing Systems, pages 5099–5108, 2017.

4.    X. Han, T. Leung, Y. Jia, R. Sukthankar, and A. C. Berg. Matchnet: Unifying feature and metric learning for patch- based matching. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3279– 3286, 2015. 

5.    M.KazhdanandH.Hoppe.Screenedpoissonsurfacerecon- struction. ACM Transactions on Graphics (ToG), 32(3):29, 2013. 


往期解读CVPR 2019 | 旷视提出 GIF2Video:首个深度学习 GIF 质量提升方法

理论CVPR 2019CVPR计算机视觉UCLA旷视科技
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

Dropout技术

神经网络训练中防止过拟合的一种技术

核函数技术

核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。最常应用于SVM支持向量机中

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

拓扑学技术

莫比乌斯带,只有一个面与一个边,为拓扑学所研究之一类对象。 在数学里,拓扑学(英语:topology),或意译为位相几何学,是一门研究拓扑空间的学科,主要研究空间内,在连续变化(如拉伸或弯曲,但不包括撕开或黏合)下维持不变的性质。在拓扑学里,重要的拓扑性质包括连通性与紧致性。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

批归一化技术

批归一化(Batch Normalization,BN)由谷歌于2015年提出,是一个深度神经网络训练的技巧,它不仅可以加快模型的收敛速度,还能在一定程度上缓解深层网络中的“梯度弥散”问题,从而使得训练深层网络模型更加容易和稳定。目前BN已经成为几乎所有卷积神经网络的标配技巧了。从字面意思看来Batch Normalization(简称BN)就是对每一批数据进行归一化。

暂无评论
暂无评论~