机器之心编辑部报道

不用绿幕也能做特效,谷歌「LED蛋」让你告别五毛特效,光线、影子都能调

影视作品里许多特效场景都需要借助绿幕完成,在技术不过硬的时候,常会发生「五毛特效」的惨案。来自谷歌的研究者发明了一种 Bling Bling 的「LED 蛋」3D 人体捕获装置:先把表演者请进「蛋」里一阵猛拍,然后进行重建和渲染,就能任意切换人物所处的环境,连光照、阴影都可以根据环境进行调整,简直完美。

「灯光」在影视作品、游戏和虚拟环境中的作用至关重要——有时候它是决定一个场景表演质量的关键,这个很容易理解。比如某些古装剧的某些场景会让人非常出戏,除了演员的演技太差之外,很有可能是因为光效不太自然,盯着电视机屏幕时,你甚至能想象出来演员头顶的摄影棚。

在影视制作过程中,想要复制完美的光效仍然是个难题。随着计算机视觉技术的演进,计算机已经能够比较「自然」地还原人脸形状、皮肤纹路,但是在模拟灯光条件这一块还是缺乏写实感。

谷歌这个全新的系统可以完美还原人物周围的光影效果,使得合成的影像看起来更加逼真。通过与 AR 等技术的融合,该系统可以无缝地将捕捉到的人体融合到现实世界中或电影、游戏等中的数字场景。它可能会彻底变革 3D 捕获技术领域。

用来拍摄的「LED 蛋」。

人在「LED 蛋」中完成各种动作。

这个「LED 蛋」实际上名为 Relightables,它可以捕捉人身上的反射信息,即光线与皮肤的交互,这是数字 3D 人物看起来是否逼真的关键。之前的研究要么使用平面照明,要么需要计算机生成人物。谷歌的系统不仅能捕捉人身上的反射信息,还能记录人在 3D 环境中自由移动时的信息。因此,该系统能够在任意环境中重新调整人物的光照。

图 1: Relightables 系统,这个体积捕获设置将传统的计算机视觉流程与深度学习的最新进展相结合,可以在任意环境中重现高质量模型。

论文地址:https://dl.acm.org/citation.cfm?id=3356571

在之前的研究中,相机只从单一的视角和光照条件下记录人体。但谷歌的系统可以让用户在任意视角和条件下查看被记录的人,不需要绿幕来创建特效,可以实现更加灵活的照明条件。

在 11 月 17 日-20 日于澳大利亚举行的 ACM SIGGRAPH 亚洲展览会上,谷歌公开展示了 Relightables 系统。

Relightables 系统

谷歌的 Relightables 系统工作流程可分为三个部分:捕捉、重建和渲染。首先,研究者设计了一个全新的主动深度深度传感器,用来捕捉 12.4MP 的深度图。然后,他们展示了如何设计一个混合几何和机器学习重建流程来处理高分辨率输入并输出一个体积视频。接下来,他们利用在 60Hz 频率下获得的两种交替颜色梯度照明图像中的信息,为动态表演者生成时间上一致的光照图像。

总体流程如下:

图 8:Relightables 流程(第一部分)。首先,原始图像将用于重建高质量 3D 模型。

图 9:Relightables 流程(第 2 部分)。对该网格进行下采样,随时间推移跟踪并进行参数化。

图 10:Relightables 流程(第 3 部分)。最后,由两个梯度照明条件推断出反射率图。

捕捉

该系统的核心依赖于一个包含多视角(主动)立体深度传感器的灯光球面舞台,舞台周围有 331 个可编程的灯以及 90 个高分辨率 12.4MP 重建相机。

捕捉人体所用的相机包含 32 个红外(IR)相机和 58 个 RGB 相机。红外传感器提供准确、可信赖的 3D 数据,RGB 相机捕捉高质量几何法线贴图和纹理。这些相机以 60Hz 的频率记录原始视频,研究者基于球面梯度照明交替使用两种不同的照明条件。

用于捕捉人体的相机如下所示:

图 3:主动深度传感器组件。

捕捉 600 帧(10 秒)的图像可以生成 650GB 的数据。对于每个部分,研究者还记录了一个几何校正序列和一个 50 帧的 clean-plate 序列(即没有人的舞台)。后者用于在实际表演过程中分割表演者。

重建

接下来,研究者将数据上传到公共存储库中,第一个阶段是生成每个「机位」的深度图、分割图和 3D 网格 [Kazhdan 和 Hoppe 2013]。

他们用一个对齐算法来处理重建网格的序列,如此一来,长的子序列就可以共享常见的三角定位(triangulation)。研究者提出了一种新的方法来解决关键帧的选择问题,将其转变为一个 MRF 推理问题来解决。每个独特的三角定位都被参数化为普通的 2D 纹理空间,该空间可以和所有共享该三角定位的帧共享。

渲染

每个网格都有两个可用的梯度球形照明图像,从中可以生成反照率、法线、光泽度和环境光遮挡图。这些图与标准渲染引擎兼容,可用在任何设定的光线条件下重新生成渲染图像。

系统各模块到底怎么样?

整个系统是非常复杂的一个处理流程,研究者在论文中分析了系统的主要模块,从而验证提出的方法。这些模块评估包括深度预测、图像分割、最优网格追踪、UV 参数化、纹理对齐等等,这一部分只简要展示几大模块的效果,更多的评估效果可参考原论文。

对于深度估计模块,图像展示了 SAD 和 VGG 在基于 RGB 图像做立体匹配的效果。我们可以看到论文采用的 VGG 要提供更加平滑的结果。

研究者表示,从立体视角中抽取深度图像特征非常重要,他们表示尽管 VGG 这类深度模型非常强大,但它在牛仔裤等少纹理的区域效果还是不够好。对于分割模块,研究者使用深度学习先验知识都嵌入到 CRF 中,包括前景与背景的颜色和深度信息。

研究者的立体分割能够标注手上的篮球,这在单图像分割是做不到的。

纹理对齐大大改善了快速切向运动时的渲染效果。

相比 Collet 等人最佳的体积重建模型,研究者重现实现了很多模块。如下所示为研究者提出的分割方法与 Collet 等人方法的对比。其中研究者的方法能生成高质量的结果,而 Collet 也能生成非常令人满意的纹理网格,只不过 Collet 缺失了高频细节。

图 19:研究者的重构结果与 Collet 方法的对比,由于更高的分辨率、深度相机和光度立体法估计,研究者的方法展示了更多的几何细节。

参考链接:https://techxplore.com/news/2019-11-google-captures-character-virtually-environment.html

理论特效谷歌LED蛋
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

推荐文章
暂无评论
暂无评论~