Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

生成高精细节,新方法AligNeRF解决NeRF对齐问题

虽然 NeRF 能够用不同视角的视图中渲染复杂的 3D 场景,但很少有人致力于探索其在高分辨率设置中的局限性。具体来说,现有的基于 NeRF 的方法在重建高分辨率的真实场景时面临着一些限制,包括大量的参数、未对齐的输入数据和过于平滑的细节。

在 UC Austin、谷歌、香港中文大学等机构提出的一项新研究中,作者找到了相应的解决方案:1) 将多层感知器(MLP)与卷积层相结合,可以编码更多的邻域信息,同时减少参数总数;2) 一种新的训练策略来解决由移动物体或摄像机空间坐标校准误差引起的偏移;3) 高频感知损失。作者的方法几乎没有引入明显的训练和测试成本,而在不同数据集上的实验表明,与基本的 NeRF 模型相比,该工作可以恢复更多的高频细节。

图片

  • 论文地址:https://arxiv.org/abs/2211.09682

  • 项目地址:https://yifanjiang19.github.io/alignerf

简介

神经辐射场(NeRF)及其变体,最近在从图像中学习几何三维表示方面表现出了令人印象深刻的性能。由此产生的高质量的场景表示创造了沉浸式的新视图合成体验,与复杂的几何形状和视图依赖的外观。自 NeRF 诞生以来,人们已经做了大量的工作来提高其质量和效率,使其能够从「野外」捕获的数据或有限数量的输入和跨多个场景的泛化中进行重建。

在本文中,作者以高分辨率的图像数据作为输入,在高保真设置下进行训练神经辐射场的初步研究。这就带来了几个主要的挑战:首先,使用高分辨率训练图像的主要挑战在于编码所有高频细节需要更多的参数,这会导致更长的训练时间和更高的内存成本。

在新模型中,作者在训练期间渲染图像补丁块。这使作者能够进一步解决渲染的补丁和 groud truth 之间的失调,这通常是由微小的相机姿态错误或被拍摄物体的轻微移动造成的。首先,作者分析了错位如何通过利用训练后渲染出的图像帧和相应的 groud truth 之间的估计光流来影响推理图像质量。作者分析并讨论了以前的错位感知损失的局限性,并为根据作者的任务目标提出了一种新的对齐策略。作者设计了一种新的频率感知损失,它进一步提高了训练集测试集的渲染质量,并且没有额外的开销。因此,AligNeRF 在高分辨率 3D 重建任务中的性能大大优于目前最好的方法。

综上所述,作者的贡献如下:

  • 分析并显示了高分辨率训练数据的错位导致的性能下降。

  • 一种新的卷积网络辅助架构,可以以少量的额外成本提高渲染图像的质量。

  • 一种新的补丁对齐损失,使 NeRF 对相机姿态误差和微妙的物体运动更鲁棒,结合基于补丁的损失,以提高高频细节。

图片

方法

AligNeRF 是一个易于插入的组件,适用于任何类似 NeRF 的模型,包括点采样方法和基于截锥体的方法。AligNeRF 使用分阶段训练:从初始的「正常」预训练阶段开始,然后是对齐感知微调阶段。作者选择 mip-NeRF 360 作为工作的基线,因为它是用于复杂无界现实世界场景的最先进的 NeRF 方法。接下来,先介绍作者的卷积增强架构,随后是错位感知训练过程和高频损失。

作者先是探索如何有效地编码局部归纳先验知识以用于基于坐标的 NeRF 表示 。类似 NeRF 的模型通常会构建一个坐标到值的映射函数,随机采样一批光线以优化其参数,并且中间没有任何优化操作。为此作者把从随机采样切换到基于补丁的采样(作者在实验中使用 32 × 32 补丁),这种基于补丁块的采样策略允许作者在每次迭代期间收集一个小的局部图像区域,从而在渲染每个像素时利用 2D 局部邻域信息。

首先将 MLP 中最后一层的输出通道数从 3 更改为更大的 N, 这有助于在每个采样光线中收集更丰富的表示。接下来在体积渲染后,添加一个简单的 3 层卷积网络,具有 ReLU 激活和 3 × 3 个内核。在该网络的末端,作者使用前馈感知器层将表示从特征空间转换为 RGB 空间。因此,每个像素的渲染过程不仅依赖于沿该方向的单个射线或圆锥射线区域,还依赖于其相邻区域,这有助于产生更好的纹理细节。

图片

NeRF 通过渲染函数映射 3D 点到场景属性的关系来建模。在此框架下,训练样本相机位姿的准确性对于 NeRF 训练至关重要,否则从不同视点观察同一 3D 点的光线可能不会汇聚到空间中的同一位置 NeRF 通过在非常短的时间跨度内捕获图像(以防止场景运动和光照变化)并采用 COLMAP 来计算相机参数来解决这个问题。1) 地面实况相机姿势与来自 COLMAP 的相机姿势之间存在差距,该数据准备的工作流程大部分是可靠的,正如之前的工作所指出的那样:2)在不受控制的室外场景中,通常很难避免带有摇曳植物和其他非刚性静止物体的图像,这进一步损害了 COLMAP 的性能。

在高分辨率重建设置中,由相机姿势和移动物体引起的错位问题可能会进一步放大,因为像素空间错位与分辨率呈线性关系。为了解决这个问题,作者提出了一种对齐感知训练策略,可以用来改进渲染图像的质量。

尽管纹理扭曲,作者观察到 NeRF 仍然从未对齐的图像中学习粗糙结构。利用这一点,作者提出了对齐的 groud truth 和渲染块之间的 Loss。设置了一个基于欧氏距离的正则化项作为对该搜索空间的惩罚,最终的损失函数为:

图片

均方误差 (MSE) 损失通常用于监督 NeRF 训练,但 MSE 经常导致输出图像模糊。鉴于作者的补丁采样策略,作者可以采用感知损失,更好地保留高频细节。作者首先尝试使用预训练 VGG 特征的 L2 损失。然而,与其他图像恢复任务类似,作者发现感知损失会产生更多的高频细节,但有时会扭曲物体的实际纹理。因此,作者修改了 Johnson 等人提出的原始感知损失,仅使用最大池化之前第一个块的输出:

图片

AligNeRF 与之前工作的主要区别是从每像素 MSE 损失切换到基于块的 MSE 损失(考虑未对齐)和浅层 VGG 特征空间损失的组合,以改善高频细节:

图片

实验效果

定量分析

为了进行公平的比较,作者将所提出的 AligNeRF 是基于 mip-NeRF 360 的方法上,并注意不通过作者的分阶段性的训练(训练前的 + 微调)来增加训练时间。由于这个实验使用了更高分辨率的图像,也可以看到作者增加训练时间的 4 倍以保持相同的训练期数量的结果。如下表所示,NeRF 和 mip-NeRF 的性能较差,因为它们不是为 360 度无界场景设计的。增加 mip-NeRF 的参数会有很小的改善,但会使训练时间更长。

图片

作者提出的方法在两组中都优于 baseline 方法,而且并没有引入显著的训练开销。下表是与一些较为流行的方法的比较,在这些方法中,作者的方法在三个指标中展示了最好的性能,而且在低分辨率图像上的错位问题要比其他的方法要轻得多。

图片

定性分析

首先,作者训练一个具有默认参数(1024 个通道)的 mip-NeRF 360 模型。但是仅仅是简单的 baseline 模型产生了模糊的图像,并且估计的光流包含了扭曲区域(第一列)中的伪影。接下来,作者将 mip-NeRF 360 网络参数增加 4 倍,但是这仅仅会略微提高结果的视觉质量,作者也应用迭代对齐策略来改进这个获得了更好的模型的结果。与在错位数据(前两列)上训练的模型相比,使用再生数据训练的模型恢复了更清晰的细节。这一观察结果表明,目前基于 NeRF 模型受到不对准相机位姿的训练样本的强烈影响。

图片

总结及未来展望

在这项工作中,作者对高分辨率数据上的训练神经辐射场进行了初步研究。他们提出了一种有效的对齐感知训练策 AligNeRF 可以提高 NeRF 的性能。作者还定量和定性地分析了错位数据和通过使用光流估计重新生成对齐数据带来的性能下降。这一分析进一步帮助我们理解目前将 NeRF 扩展到更高分辨率的瓶颈问题。我们可以观察到,可以通过大幅增加参数的数量和进一步增加训练时间来进一步改进 NeRF,如何缩小这一差距是未来的研究方向。

理论高精细节AligNeRF
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

最大池化技术

最大池化(max-pooling)即取局部接受域中值最大的点。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

光流估计技术

光流估计用于估计图像序列中的每个像素的运动,在计算机视觉中有许多应用,例如图像分割,对象分类,视觉测距和驾驶员辅助。

新视图合成技术

新视图合成旨在从给定图像的不同视点合成新图像。

推荐文章
暂无评论
暂无评论~