Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部专栏

NeurIPS2021 | 华南理工提出SS-Conv:兼顾加速与SE(3)等变性,3D空间姿态估计突出

来自华南理工大学等机构的研究者提出了一个新颖的稀疏姿态可控卷积(SS-Conv),SS-Conv 不仅利用稀疏张量对姿态可控卷积进行极大地加速,还在特征学习中严格地保持 SE(3) 等变性。

近年来,SE(3) 等变网络在 3D 语义分析任务中发挥着重要的作用,尤以 3D 姿态可控卷积神经网络为代表。3D 姿态可控卷积神经网络利用姿态可控卷积(ST-Conv)逐层学习姿态等变的特征,从而保留 3D 输入的姿态信息。直观地说,对于一个 ST-Conv,关于 3D 输入的任意 SE(3) 变换(r,t),都将诱导输出特征的同步姿态变换,其中r ∈SO(3)表示旋转,表示平移。图 1(a) 进一步给出了解释,给定输入的一个 SE(3) 变换,特征向量所在位置均关于(r,t)进行刚性变换,而特征向量 ρ(r)本身也关于进行旋转( ρ(r)是旋转r的一个表征)。SE(3) 等变的特性激活了特征空间的姿态可控性,例如,SE(3) 变换可通过对特征空间进行操控来直接实现,而无需变换输入。为了生成姿态可控特征,ST-Conv 将特征域限定在 3D 体素数据的规则网格上,使其能通过 3D 卷积方便地实现。对 3D 卷积的兼容简化了 ST-Conv 的实现,但也牺牲了对不规则且稀疏的 3D 数据(例如,点云)的高效处理,导致 ST-Conv 未能在更多 3D 语义分析领域中被广泛使用。

图 1. SE(3) 等变性:(a)ST-Conv;(b)SS-Conv。箭头表示 3D 场中有向的特征向量。

为了解决上述问题,华南理工大学等研究人员提出了一个新颖的稀疏姿态可控卷积(SS-Conv)。SS-Conv 不仅利用稀疏张量对姿态可控卷积进行极大地加速,还在特征学习中严格地保持 SE(3) 等变性。图 1(b) 对 SS-Conv 的 SE(3) 等变特性进行了阐释。为了实现 SS-Conv,研究人员通过基于球形谐波的基核的线性组合来建立卷积核,使其满足 SE(3) 等变卷积应遵循的旋转可控约束条件,同时基于稀疏张量在激活的特征位置上利用 GPU 上的矩阵加乘操作实现快速卷积。

  • 论文链接:https://arxiv.org/abs/2111.07383

  • 代码链接:https://github.com/Gorilla-Lab-SCUT/SS-Conv

虽然 SE(3) 等变特征学习在 3D 物体识别任务上被广泛使用,其潜能在 3D 语义分析的其他任务上却尚待开发。研究人员尝试将 SS-Conv 应用到 3D 空间中物体姿态估计中,因此提出了一个基于 SS-Conv 的通用框架,通过堆叠多层 SS-Conv 来提取 SE(3) 等变特征,从而直接解码出物体的姿态。在这个框架中,一个新颖的特征操控模块(Feature-Steering module)充分地利用特征的可控性来迭代地对姿态进行优化。研究人员在三个姿态相关的 3D 物体语义分析任务上进行充分的实验,包括实例层级的 6D 物体姿态估计、类别层级的 6D 物体姿态及大小估计、类别层级的 6D 物体姿态跟踪

SS-Conv 的实现

假设卷积核 k 为一个离散的规则立方体,具有s×s×s个网格点,则 SS-Conv 可定义为:
其中,表示位置x在特征空间中的状态。代表位置x未激活,特征处于基态;代表位置x已被激活,处于激活态。

与 ST-Conv 相比,SS-Conv 在两个方面进行加速:i) 卷积只在被激活的输出位置上进行,而不是整个 3D 体素空间中,其中激活位置的数量仅占一小部分;ii)在每个激活的输出位置的感受野中,只有激活的输入特征被卷积。为了上述目的,输入和输出特征被分别表示为稀疏张量,其中,为哈希表,记录着激活位置的坐标,而为特征矩阵。对于一个稀疏张量,其哈希表和特征矩阵行对行地相互对应。

从这个层面来说,SS-Conv 的目标为用k来卷积输入,图片因此可分三个步骤进行实现 SS-Conv:i) 通过旋转可控卷积核的建立,获得卷积核k;ii)通过位置状态的定义,获得输出哈希表;ii)通过稀疏卷积的操作,获得输出特征矩阵

旋转可控卷积核的建立

满足旋转可控约束条件的关键在于控制特征向量的径向方向,最新的研究发现球形谐波可以给出解答,基于球形谐波的基核的线性组合来生成旋转可控的卷积核。

首先考虑输入和输出特征都是不可约束的表征,阶数分别为l和k,则在x位置的卷积核可以表示为基核的线性组合:
其中,
在上述公式中,是一组可学习的系数,是一个连续的高斯径向函数是一个 (2k+1)(2l+1)大小的基变换矩阵。

再考虑一般情况下,输入和输出特征由不可约的表征堆叠而成,阶数分别,则在x位置处整个旋转可控的卷积核k(x)可表示为:
k(x)的大小为,其中

位置状态的定义

SS-Conv 高效性的关键在于位置状态的定义。一般来说,对于一个输出位置x,如果在其感受野中存在任意激活的输入位置,则该位置被激活;否则该位置设为未激活状态,即意味着该位置的特征将被直接设为零向量(基态)。上述定义可表示为:
输出的哈希表即为

稀疏卷积的操作

在获得后,下一个目标为计算的值。特别地,先被初始化为零矩阵,继而通过以下算法来更新其中特征向量:
这个过程可分为两小步:第一步是建立规则词典来记录匹配的激活输入位置y和输出位置x, 第二步是根据R中的匹配关系来更新。在这个过程中,R的建立非常重要,使得第二步可以在 GPU 上利用矩阵加乘操作高效地实现。

SS-Conv 的性能、速度及显存占用

为了探究 SS-onv 的性能,研究人员在实例层级的 6D 物体姿态估计任务上将其与其他三种 3D 卷积进行比较,包括传统密集连接的 3D 卷积(Dense-Conv)、非 SE(3) 等变的稀疏卷积(SP-Conv)、3D 姿态可控卷积(ST-Conv)。在这些卷积中,SP-Conv 通过考虑数据的稀疏性来提高 Dense-Conv 的速度,在一些 3D 语义任务上非常高效(例如,3D 物体检测);ST-Conv 建立旋转可控的卷积核,再利用 Dense-Conv 来实现卷积。为了满足不同卷积的多种计算需求,这些实验在相同的实验条件下,基于一个简单轻量的 12 层卷积网络结构(Plain12)上实现。

表 1. 基于不同卷积层的 Plain12 的量化结果。数据库为 LineMOD。

不同卷积在 LineMOD 数据库上的量化结果如表 1 所示,SS-Conv 在准确性和高效性上均占据优势。在准确性方面,SS-Conv 在 ADD(S) 指标上取得了和 ST-Conv 相当的结果,且远远高于 Dense-Conv 及 SP-Conv,充分显示了 SE(3) 等变的特征学习在姿态估计上的重要性。通过逐层地保留特征的相对姿态,SE(3) 等变特性能在特征学习中捕捉更多有效的物体姿态信息。在高效性方面,稀疏姿态可控的卷积神经网络在复杂系统中显得更加快捷和灵活,例如,在 Plain12 中 batch size 为 32 的情况下,SS-Conv 的速度约为 ST-Conv 的 2.7 倍(表 1 中 404FPS v.s. 148FPS)。图 2 展示了更多不同大小的数据 batch 下 FPS 的结果,其中 ST-Conv 在一张最大显存为 12G 的显卡上的极限 batch size 为 48;而 SS-Conv 占据更少显存,即使 batch size 为 512,依然可以运行。值得一提的是,更大的 batch size,SS-Conv 更加高效,例如,在 Plain12 上 batch size 为 512 的情况下,速度可达到 725 FPS。此外,研究人员还在两个更深的网络(Plain24 和 ResNet50)上对 ST-Conv 和 SS-Conv 进行比较,结果与 Plain12 上的保持一致:SS-Conv 比 ST-Conv 享有更快的速度,且占用更少的 GPU 显存。

图 2. 不同 batch size 下 FPS 和 GPU 显存占用曲线。

应用:3D 空间中物体姿态的估计和跟踪

图 3. 基于 SS-Conv 的物体姿态估计的通用框架

如图 3 所示,研究人员基于 SS-Conv 建立了一个两阶段的物体姿态估计框架。在第一阶段中,研究人员首先利用 SS-Conv 建立主干网络,提取多层级的 SE(3) 等变体素特征,后利用 Tenso-to-Point 模块将体素特征转变为观测物体的逐点特征,用于估计初始的物体姿态;在第二阶段中,利用 SS-Conv 的特征空间可控性,研究人员提出了特征操控模块(Feature-Steering module),对等变的体素特征基于预测的初始姿态进行变换,再同样地将其转为逐点特征,用于估计物体残差姿态,从而优化初始预测。第二阶段可被迭代地使用,不断更新物体姿态。

实例层级 6D 物体姿态估计

对于实例层级的任务,研究人员在 LineMOD 数据库上对基于 SS-Conv 的方法同其他已有方法进行对比。不同方法的量化结果如表 2 所示,基于 SS-Conv 的两阶段方法超过目前所有的方法,在 ADD(S) 上取得了新的最高结果 99.2%。可以观察到,得益于 SS-Conv 中特征空间的可控性,基于特征操控模块的第二阶段姿态优化大幅提高了第一阶段的预测结果。

表 2. 不同方法在实例层级 6D 物体姿态估计任务上的量化结果。数据库为 LineMOD。

类别层级 6D 物体姿态和大小估计

研究人员在 REAL275 数据库上进行更具挑战的类别层级姿态估计任务。表 3 中的量化结果验证了高精度下基于 SS-Conv 的框架的优越性,尤其在的高精度指标上,结果从最新的 35.9% 提高到了 43.4%。第二阶段的姿态优化依然在这个任务上发挥着巨大的作用。

表 3. 不同方法在类例层级 6D 物体姿态和大小估计任务上的量化结果。数据库为 REAL275。

类别层级 6D 物体姿态跟踪

研究人员还在 REAL275 数据库上同基准方法(6-PACK)比较类别层级的姿态跟踪结果。在 6-PACK 中,两帧之间的相对姿态是通过预测配对的关键点来实现的,而基于 SS-Conv 的框架则采用直接回归的方式进行姿态估计,并在所有指标上均超过 6-PACK(如表 4 所示)。

表 4. 不同方法在类别层级 6D 物体姿态跟踪任务上的量化结果。数据库为 REAL275。
理论3D空间姿态估计SE(3)等变性SS-Conv华南理工NeurIPS 2021
相关数据
基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

姿态跟踪技术

姿态跟踪是姿态估计任务在视频中的扩展,主要是针对视频场景中的每一个人,进行人体以及每个关键点的跟踪。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~