阿姆斯特丹大学论文提出球面CNN:可用于3D模型识别

1 引言

卷积神经网络(CNN)可以检测出图像任意位置的局部模式。与平面图像相似,球面图像的局部模式也可以移动,但这里的「移动」是指三维旋转而非平移。类比平面 CNN,我们希望构造一个神经网络,用于检测球面图像上任意旋转的局部模式。

如图 1 所示,平移卷积或互相关的方法不适用于分析球面信号。那么最明显的解决办法是改变互相关的定义,将滤波器平移改为滤波器旋转。然而这时我们会遇到问题,平面和球面之间存在一个细微却重要的差异:平面的移动空间(二维平移)与该平面是同构的,而球面的移动空间(三维旋转)是一个与球面不同构的三维流形,称为 SO(3)。因此球面互相关的结果(即输出的特征映射)是 SO(3) 上的信号,而非球面 S^2 上的信号。鉴于此,我们在一个球面 CNN 较高的几层中实现 SO(3) 群内的互相关(Cohen and Welling, 2016)。

图 1:对球面信号的平面投影都会产生畸变。球面信号的旋转效果无法用其平面投影的平移效果来模仿。

球面 CNN(S^2-CNN)的实现存在两大挑战。首先,平面上像素组成的方形栅格具有离散的平移对称性,而球面上不存在完全对称的栅格,所以很难对球面滤波器旋转一个像素的距离作出简单定义。为了旋转球面滤波器,我们需要做某种形式的插值。另一个挑战是计算效率,由于 SO(3) 是一个三维流形,简单实现 SO(3) 群内的互相关,算法的时间复杂度为 O(n^6)。

本文采用非交换谐波分析领域的方法(Chirikjian and Kyatkin, 2001; Folland, 1995)解决上述问题。这一领域给出的广义傅里叶变换影响深远,不仅适用于球面信号,也适用于旋转群上的信号。已知 SO(3) 群内互相关关于 SO(3) 群内的傅里叶变换满足傅里叶定理,而本文对球面(S^2)互相关的定义也满足傅里叶定理,因此可以用广义的快速傅里叶变换(FFT)算法高效实现 S^2 的互相关和 SO(3) 的群内互相关。

本文是首个在多层神经网络中针对连续群做互相关的研究,因此就连续理论预测的数学性质在实际离散化实现中的适用程度,我们进行了严格的评估。

同时,通过对三个数据集的实验,本文展示了球面 CNN 在旋转不变分类问题和回归问题中的应用。第一项实验显示,球面 CNN 对球面 MNIST 图像做旋转不变分类的效果远优于平面 CNN;第二项实验采用 CNN 实现三维形状的分类;第三项实验将球面 CNN 模型用于分子能量回归分析,这是计算化学中的一类重要问题。

贡献

本文的主要贡献如下:一是球面 CNN 理论;二是对于球面 S^2 和三维特殊正交群 SO(3) 的广义傅里叶变换,本文给出了首个可自动微分的实现,开源的 PyTorch 代码使用简单、运算快速,且内存使用效率高。三是就球面 CNN 对旋转不变类学习问题的适用性,本文给出了实证支持。

图 2:频域内实现球面互相关。信号 f 和局部支持的滤波器 ψ 经过傅里叶变换,分块表示为张量,在各输入通道上求和,最终做傅里叶逆变换。注意,由于滤波器是局部支持的,用矩阵乘法(离散傅里叶变换 DFT)比用 FFT 算法更快。本文用球坐标 α 和 β 将球面参数化,用 ZYZ(外旋)欧拉角 α,β 和 γ 将 SO(3) 参数化。

图 3:∆ 作为栅格分辨率和网络层数的函数

图 4:用球极平面投影将两个 MNIST 数字投影到球面。如果再投影回平面,则会产生非线性畸变。

图 5:光线从球面向球心投射,与模型(椅子)的第一个交汇点处可计算球面信号值。右侧两幅图是用球坐标 (α, β) 表示的两个球面信号。右上:从球面到模型第一个交汇点处的光线线段长度。右下:光线与模型法线夹角的余弦;红点对应左图中投射的红色光线。

表 1:平面 CNN 与球面 CNN 在球面 MNIST 数据集上的精度。这里 R 表示经过旋转的图像,NR 表示未旋转的图像,X/Y 表示网络用 X 数据集训练,用 Y 数据集评估。

表 2:SHREC17 竞赛(三维形状分类)最佳方法与本文方法的结果对比

图 6:势函数 Uz 产生五通道的球面信号。分子中可包含的五类原子:H(红色)、C(绿色)、N(橙色)、O(棕色)和 S(灰色),对应原子序数 z ∈ {1, 6, 7, 8, 16}。

表 3:左:QM7 任务(对分子的原子化能做回归预测)实验结果,作者 (a) 为 Montavon et al. (2012),作者 (b) 为 Raj et al. (2016)。右:用于分子能量回归任务的 ResNet 架构。

论文:SPHERICAL CNNS

论文链接:https://openreview.net/pdf?id=Hkbd5xZRb

卷积神经网络(CNN)已成为二维平面图像学习问题的首选方法。然而,近期研究中出现的大量问题需要面向球面图像的分析模型,应用包括无人机、机器人和自动驾驶汽车的全向视觉,分子能量的回归分析,以及全球气象建模等。将卷积神经网络简单应用于球面图像的平面投影这一方法注定会失败,因为投影时的空间变化会引入变化的畸变,在平移卷积核时,权值共享不再有效。

本文提供了构建球面 CNN 的基本要素,并提出了球面互相关的定义,表达力强且具有旋转等变性。如此定义的球面互相关满足广义傅里叶定理,因此可以用广义(非交换的)快速傅里叶变换(FFT)算法高效计算。本文展示了球面 CNN 在三维模型识别和雾化能量回归问题中的计算效率、数值精度和有效性。

理论
3
返回顶部