Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

海康、UCLA、北理联合提出3D DescriptorNet:可按条件生成3D形状,克服模式崩溃

近日,海康威视、UCLA、北理工联合提出了新的模型 3D DescriptorNet。该模型通过结合能量模型和容积式卷积神经网络的优点,对 3D 形状的容积形状模式进行概率建模。其独特优势有:可通过 MCMC 方法合成真实的 3D 形状模式;可被修改成条件式版本,应用于 3D 物体恢复和 3D 物体超分辨率;不同于对抗训练,利用该模型得到的 3D 生成器是稳定的,没有模式崩溃问题;可应用于半监督学习。

3D 形状的统计模型

最近,随着诸如 ShapeNet[29,4] 引入大型 3D CAD 数据集,人们在基于体素化 3D 形状数据对物体进行识别和合成上,进行了一些有趣的尝试。从统计建模的角度来看,现有的 3D 模型可以被分为 2 大类别:(1) 3D 判别器,例如 Voxnet[16],它旨在学习一个从 3D 体素输入到语义标签的映射,从而实现 3D 物体的分类和识别;(2) 3D 生成器,例如 3D-GAN[28],它是一种隐变量模型,这种模型假设 3D 体素信号可以由一些隐变量生成。判别器的训练通常依赖于具有注释的大数据并通过直接最小化预测误差来完成训练,而生成器的训练是学习一个从隐变量空间到 3D 体素数据空间的映射。

尽管生成器模型在合成 3D 形状模式中很有用,但是在极大似然学习的推断步骤中会遇到困难 (比如从后验分布中取样),因此变分推断 [12] 和对抗学习 [6,18,28] 的方法被广泛使用,在这些方法中,一个额外的网络被纳入学习算法中用以克服后验推断的困难。

过去几年中,人们在建立 3D 形状数据的判别器模型和生成器模型方面取得了显著进步。然而,在基于能量模型对 3D 形状数据进行建模的研究方面没有太多进展。我们称这种类型的模型为描述性模型或者是描述器网络 [34],因为这种模型是基于从数据中学习到的自下而上的描述性特征来解释数据的。本文的重点是为体素化形状数据构建一个容积 3D 描述器网络。可以认为这是针对 3D 形状生成的 3D-GAN[28] 的替代品。

3D 形状描述器网络

具体来说,研究者结合了能量模型 [14] 和容积式卷积神经网络 [16] 的优点,提出了一种新的框架对容积形状模式进行概率建模。该模型是直接定义在体素化形状信号上的概率密度函数,同时,该模型是基于能量的深度卷积网络模型,其中特征统计量或能量函数由将 3D 信号映射到特征上的、自下而上的容积式 ConvNet 定义。该模型被称为 3D DescriptorNet,因为它使用了容积式 ConvNet 从体素化数据中提取 3D 形状特征。

本文所提出模型的训练过程遵循一种「综合分析」方案 [7]。不同于变分推断或对抗学习,在学习过程中,该模型不需要并入一个额外的推断网络或一个对抗判别器。学习和采样的过程由单一模型的相同参数集合引导,这使得该模型成为一个特别自然且统计上严谨的框架。

通过概率密度函数对 3D 形状数据进行建模的方法,具有一些独特的优势:首先,它能够通过 MCMC 方法(比如 Langevin 动力学),从分布中采集样本,来合成真实的 3D 形状模式。其次,该模型可以被修改成一个条件式版本,可应用于 3D 物体恢复和 3D 物体超分辨率。具体来说,训练一个将破损的 (或低分辨率的)3D 物体映射到完整的 (或高分辨率的)3D 物体的条件概率密度函数。然后,通过把破损的或低分辨率的 3D 物体作为条件输入,从学习到的条件分布中采样,可以实现 3D 恢复 (或 3D 超分辨率)。第三,不同于对抗训练,该模型可以用于一种合作训练方案 [31],从而通过 MCMC 指导去训练一个 3D 生成器模型。通过这样一种方案训练的 3D 生成器是稳定的,并且不会有模式崩溃的问题。最后,该模型对于半监督学习也很有用。在从未标记的数据中学习模型之后,学习到的特征可以被用于训练用于标记数据的分类器。

本文所提出的 3D DescriptorNet 可以用于合成真实的 3D 形状模式,并且其条件式版本对于 3D 物体恢复和 3D 物体超分辨率很有用。由采用合作方案的 3D DescriptorNet 训练的 3D 生成器,可以生成有关 3D 物体的语义信息。由采用无监督形式的 3D DescriptorNet 训练的特征图对于 3D 物体分类很有用。

本文的研究贡献:

(1) 通过结合容积式 ConvNets[16] 和生成式 ConvNets[33],本文提出了 3D DescriptorNet,一种基于能量的 3D 深度卷积模型,对 3D 物体模式进行建模。

(2) 本文展示了在模型学习过程中的模式寻找和模式转换解释性。

(3) 本文展示了学习过程中的零度限制(zero temperature limit)的对抗性解释。

(4) 对于恢复任务,本文提出了一种条件式学习方法。

(5) 本文提出了评估 3D 生成式模型的有用指标。

(6) 为了训练 3D 生成器,本文提供了一种 3D 合作训练方案作为对抗学习方法的备选。


图 1:生成 3D 物体。图中每一行都展示了一个实验,其中前 3 列的 3D 物体是一些观测到的样例,第 4、5、6、7、8、9 列是通过 Langevin 动力学从学习到的模型中采样得到的合成 3D 物体。对于最后 4 个合成的物体 (第 6、7、8、9 列),从训练集中检索到的,与它们最相近的物体,显示在第 10、11、12、13 列中。


表 3:在遮挡实验中的恢复误差。


表 4:在 ModelNet10 数据集上的 3D 物体分类结果。

论文:Learning Descriptor Networks for 3D Shape Synthesis and Analysis(学习描述器网络进行 3D 形状合成和分析)


论文地址:https://arxiv.org/abs/1804.00586

本文提出了一种对容积形状模式进行建模的 3D 形状描述器网络,该网络是一种基于能量的深度卷积模型。模型的极大似然训练遵循一种「综合分析」方案,并且其可以被解释为一种模式寻找和模式转换过程。通过诸如 Langevin 动力学的 MCMC 方法,该模型可以从概率分布中进行采样来合成 3D 形状模式。通过 MCMC 指导,该模型可以被用于训练一个 3D 生成器网络。3D 形状描述器网络的条件式版本可以被用于 3D 物体恢复和 3D 物体超分辨率。实验表明,本文所提出的模型能够生成真实的 3D 形状模式,并有助于 3D 形状分析。

理论计算机视觉高效卷积神经网络论文
暂无评论
暂无评论~