Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩、小舟、蛋酱编辑

2D景观转3D风景大片,无惧复杂光线与遮挡,人类离「躺着旅行」的梦想又近了一步

万物皆可转 3D。

上班的时候想旅行,休假的时候想躺着,这是大多数年轻人的状态。如果能够躺在床上旅行,岂不美哉?


在古代中国也有「卧游」的典故,凡所游履,皆图之于室,可惜当时的技术条件跟不上,只能欣赏画卷上的美景。

面对新冠疫情的蔓延,人们不得不限制外出,取消各类出行计划,「卧游」的需求也变得更加急切。当然,这一需求可以通过 VR、AR 技术来满足,但前提是,你要有足够逼真的 3D 图像才能让人有身临其境的感觉。

前段时间,加州大学伯克利分校、谷歌的研究者开源了一款效果不错的 2D 图像转 3D 模型——NeRF,可以利用少数几张静态图像生成多视角的逼真 3D 图像。

NeRF 模型 demo。论文及项目地址:https://www.matthewtancik.com/nerf

但这一模型也有缺陷:如果环境中出现了明显的光线变化或人、物移动造成的遮挡,模型的性能会大打折扣。对于「卧游」这种需要呈现户外景点的场景来说,NeRF 的适用范围可能非常有限。

谷歌的团队也看到了这种缺陷,并在最近的一项研究中推出了 NeRF 模型的改进版——NeRF in the Wild(NeRF-W),使其更加适用于充满光线变化、遮挡的户外环境。

目前,研究者已将 NeRF-W 应用于几个具有挑战性的自然文化地标照片集,这些生成的效果图在各项指标上均实现了新的 SOTA。

NeRF-W 捕捉了低维潜在嵌入空间中的光线和光度后处理。在两个嵌入之间进行插值,可以平滑地捕获外观的变化,而不影响 3D 几何形状。

外观嵌入插值


该模型将光线从基础 3D 场景几何中分离出来,即使光线发生变化,3D 场景几何仍可保持一致:

几何一致性。

研究者对 NeRF-W 在合成设置中的个体增强进行了详细的控制变量研究,验证了每一次增强都会产生预期效果。在质量控制设置类似的前提下,NeRF-W 在外观变化和瞬时遮挡物挑战中实现的质量提升远远超过 NeRF。

勃兰登堡门。

圣心大教堂。

特雷维喷泉。

NeRF-W 改进了什么?


利用一组稀疏的捕获图像合成场景的新视图是计算机视觉领域长期存在的挑战,也是许多 AR 和 VR 应用的基础。

传统技术已使用「structure-from-motion」或基于图像的渲染解决了这个问题。近来,由于神经渲染技术的出现,该领域又取得了重大的进展。

加州大学伯克利分校、谷歌等机构提出的神经辐射场(NeRF)方法在神经网络权重范围内,隐式建模了辐射场和场景的密度。然后用直接体积渲染合成新视图,从而在一系列具有挑战性的场景中展示出前所未有的保真度。但是,这仅证明了 NeRF 在受控环境下运行良好:场景是在较短的时间范围内捕获,在此期间,场景中的光照条件保持恒定,而且所有内容都是静态的。

NeRF 的局限性在于,当场景内出现移动的物体或光照发生变化时,模型的性能会大大降低。这些缺陷限制了 NeRF 在自然环境中的应用。因为在自然环境中,图像的拍摄时间可能间隔数小时、数天甚至数年,而且场景中可能包含行人和汽车。

NeRF 假设世界在几何、物质和光度学上是静态的,即世界的密度和辐射(radiance)都是恒定的。因此,NeRF 要求在相同位置和方向拍摄的任何两张照片必须具有相同的像素强度。

但现实世界中的许多数据集都不符合该假设。例如,在著名旅游地标的大规模互联网照片集中,两位摄影师可能站在相同的位置并拍摄相同的地标,但是在这两张照片的时间间隔里,世界可能已经发生了巨大的变化:车、人会动,天气、气候也会变…… 即使在同一时间同一位置拍摄的两张照片也可能存在很大差异:曝光、色彩校正和色调映射可能都有所不同。

本文实验部分表明:将 NeRF 直接应用于室外照片集会导致严重的重影、过度平滑和其它瑕疵。

为了能够处理这些复杂的场景,来自谷歌的研究者提出了「NeRF-W」。


论文链接:https://arxiv.org/pdf/2008.02268.pdf

首先,研究者对每张图片的外观变化进行建模,包括曝光、光线、天气,并使用一个学到的低维潜在空间进行后处理。

根据 GLO(Generative Latent Optimization)模型的框架,研究者优化了每个输入图像的外观嵌入,从而让 NeRF-W 具备通过学习整个照片集的共享外观表征来解释图像之间光度与环境变化的灵活性。学习的外观潜在空间提供了对于输出渲染外观的控制,如下图 1 所示。


然后,研究者将场景建模为共享元素和基于图像元素的组合,从而能够在无监督的条件下将场景内容分解为静态组件和瞬态组件。这种分解实现了地标 3D 视图的高保真合成,而不会产生由输入图像中动态视觉内容所产生的伪影。本文所提出的方法将瞬态元素建模为一个二级体积辐射场(secondary volumetric radiance field)和一个数据相关的不确定场(datadependent uncertainty field),后者能够捕获变化的观测噪声,进一步减少瞬态物体对静态场景表征的影响。

具体方法


与 NeRF 类似,研究者从非结构化照片集中学得了一种体积密度表征 F_θ,该照片集中的相机参数可用或已估计。从本质上讲,NeRF 假定其输入视图一致。但是,如图 2 所示,互联网照片并不遵循如此严格的假设。有两个违背这一假设的现象:1)光度变化,2)瞬时目标。


研究者提出了两个模型组件来解决这些问题。下图 3 展示了 NeRF-W 的模型架构。



潜在外观建模


为了使 NeRF 适应变化的光线和光度后处理,研究者在公式 (1) 中引入对期望颜色的图像索引 i 的依赖:


T(t)如此前定义。


研究者采用了 GLO 模型,其中每个图像 I_i 被相应分配了一个长度为 n^(a)的实值外观嵌入向量。在 NeRF 中,研究者用数值积分近似方程(8),用基于图像的辐射


代替了基于图像的辐射 c(t)。

嵌入1在与 NeRF 参数θ一起训练的过程中进行了优化。


图 8:注意人物(左)和光线(右)没有出现在渲染图中。外观嵌入修改了渲染的颜色和光线,而不影响 3D 几何。

瞬时目标

研究者通过两种方式来帮助 NeRF 应对瞬时目标。

首先,他们利用瞬时目标的一个显式表征增强了 NeRF 的体积辐射场,这使得 NeRF-W 可以重建包含遮挡的图像,同时不在静态场景表征中引入瑕疵。

其次,他们没有直接建模观察到的颜色,而是针对该值建立了一个概率分布模型。具体来说,他们将每个像素的颜色建模为各向同性正态分布,并使用与 NeRF 相同的体积渲染方法生成其均值和方差。这使得 NeRF-W 在渲染可能包含遮挡的像素时能够表达不确定性。

这两种方法使得 NeRF-W 可以在没有显式监督的条件下分离静态和瞬时目标。


实验

为了验证 NeRF-W 的效果,研究者设计了两个领域的实验,一个实验用的是网络上找到的旅游目的地地标照片,另一个用的是合成场景的渲染图像。

旅游照数据集

下图 7 显示了基线模型和 NeRF-W 在旅游照数据集上得到的定性评估结果。NeRF-W 能够同时建模外观变化、消除瞬间遮挡并捕捉一致的 3D 场景几何。



下表 1 展示了定量对比结果。从中可以看出,NeRF-W 在所有数据集的所有指标上都超越了基线模型。在 PSNR(峰值信噪比)指标上,NeRF-W 比之前的 SOTA 模型 NRW 平均高出 5.7dB。



乐高数据集

第二项评估是在合成的乐高数据集上完成的。研究者引入了两类扰动(着色和遮挡)来模拟室外环境可能带来的挑战:光照变化和瞬时目标。

如下表 2 所示,在原始数据集上,所有模型的表现几乎相同。NeRF 无法处理存在不同程度扰动的数据集。NeRF-U 处理颜色比较失败,但在遮挡的处理上优于 NeRF。NeRF-A 擅长颜色,但遮挡处理不好。只有 NeRF-W 可以两者兼顾(如下图 10 所示)。


理论3D建模图像生成神经网络
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

推荐文章
暂无评论
暂无评论~