Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

生成3D物体进行即兴创作:英伟达在CVPR上提出高效逆渲染方法

可大幅降低 3D 建模流程成本的 NVIDIA 3D MoMa 在本周举行的计算机视觉和模式识别会议 CVPR 上亮相。

爵士乐的精髓在于即兴演奏,英伟达正在通过 AI 研究向这个音乐流派致敬。或许未来有一天,图形创作者可以使用 AI 自行生成的 3D 乐器,来一场即兴表演。

这个被称为「NVIDIA 3D MoMa」的新方法可以让建筑师、设计师、概念艺术家和游戏开发者迅速将物体导入图形引擎,并开始对其进行处理——修改比例、改变材质或尝试不同的照明效果。

英伟达在庆祝爵士乐及其发源地新奥尔良的视频中展示了这项技术。本周,关于 3D MoMa 的论文将在 CVPR 2022 上发表。作者来自英伟达、多伦多大学和 Vector Institute。

论文《 Extracting Triangular 3D Models, Materials, and Lighting From Images 》中,

论文宣传页:https://nvlabs.github.io/nvdiffrec/

3D 内容创建是一项具有挑战性的、极度依赖手动完成的任务,需要开发者具备艺术建模技能和技术知识。自动化的 3D 建模的努力可以节省大量成本,带来更快、更多样化的内容创建能力。摄影测量是一种流行的技术辅助过程,其中一个物体的多张照片被转换成一个 3D 模型。此前,很多游戏工作室利用摄影测量快速构建高度详细的虚拟景观。

这是一个多阶段的过程,包括多视图立体——对齐图片中的物体并找到对应关系、几何简化、纹理参数化、材料烘焙和加入光照。这个复杂的管道含有许多步,优化目标相互冲突,错误在不同步骤之间传播。艺术家需要依靠大量的软件工具和大量的手动调整来达到最终 3D 模型的预期质量。

在提升自动化的需求下,我们需要将这个过程定义为一个逆向渲染任务,在重建模型的渲染图像质量的驱动下,与捕获的输入图像相比,尽可能多地联合优化步骤。一些工作使用神经渲染处理 3D 重建,并提供高质量的新视图合成方法取得了进展。然而,这些方法通常会产生将几何、材料和照明纠缠到神经网络中表示,无法轻松支持场景编辑操作。此外,要在传统图形引擎中使用它们,需要使用诸如 Marching Cubes 之类的方法从网络中提取几何图形,这可能会导致较差的表面质量,尤其是在三角形数量较少的情况下。

最近的一些神经方法可以解开形状、材料和照明,但会牺牲重建质量。此外,在神经网络中编码的材料不易与和传统游戏引擎兼容的形式进行编辑或提取。相比之下,英伟达提出的重建与传统图形引擎兼容的 3D 内容,支持重新照明和场景编辑。

在新研究中,提出了一种高效的逆渲染方法,能够从多视图图像中提取具有空间变化的材料和照明的未知拓扑的三角形网格。

假设物体在一种未知的环境照明条件下被照亮,并且有相应的相机姿势和掩码来指示这些图像中的物体,就像过去的工作一样。新的方法学习表面网格的拓扑和顶点位置,不需要对 3D 几何进行任何初始猜测。该方法的核心是一个基于可变形四面体网格的可微表面模型,通过一种新颖的可微分割和近似来扩展该模型以支持空间变化的材料和高动态范围 (HDR) 环境照明。作者使用具有延迟着色的高度优化的可微光栅化器联合优化几何、材料和照明(50M+ 参数)。生成的 3D 模型无需转换即可部署在任何支持三角形渲染的设备上,包括手机和 Web 浏览器,并以交互速率进行渲染。

基于 2D 图像创建 3D 物体

「该技术长期以来一直是统一计算机视觉和计算机图形学的关键,」逆渲染是将一系列静态照片重建为 3D 物体或场景模型的技术。英伟达图形学研究副总裁 David Luebke 表示。「NVIDIA 3D MoMa 渲染流水线可以将逆渲染问题的每个部分表示为 GPU 加速的可微分组件,然后使用现代 AI 机器和 NVIDIA GPU 的原始算力快速生成 3D 物体,且创作者可以在现有工具中自由地导入、编辑和扩展这些物体。」

为了使艺术家或工程师能够充分利用 3D 物体,其形式应能够导入游戏引擎、3D 建模器和电影渲染器等各种被广泛使用的工具。带有纹理、材质的三角网格形式,就是此类 3D 工具使用的通用语言。

三角网格是用于定义 3D 图形和建模形状的基本框架。

游戏工作室和其他创作者习惯于使用复杂的摄影测量技术来创建 3D 物体,这需要耗费大量的时间和精力。近期的神经辐射场(Neural Radiance Fields)研究可以快速生成物体或场景的 3D 模型,但并不是使用易于编辑的三角网格形式。

而在单个 NVIDIA Tensor Core GPU 上运行 NVIDIA 3D MoMa 时,后者能在一小时内生成三角网格模型。该流水线的输出结果与创作者现在使用的 3D 图形引擎和建模工具直接兼容。

流水线的重建功能包括 3D 网格模型、材质和照明。网格就像由三角形构建的 3D 形状混凝纸浆模型。有了它,开发者就可以依照自己的创意对物体进行修改。材质是叠加在 3D 网格上的 2D 纹理,就像人的皮肤一样。NVIDIA 3D MoMa 通过对场景光线进行估算,使创作者能够在日后修改物体上的照明。

为虚拟爵士乐队调校乐器

为了展示 NVIDIA 3D MoMa 的功能,NVIDIA 的研究和创意团队首先从不同角度收集了五种爵士乐队乐器(小号、长号、萨克斯、架子鼓和单簧管)的约 100 张图片。

NVIDIA 3D MoMa 将 2D 图像重建为每种乐器的 3D 表示,并以网格形式呈现。然后,NVIDIA 团队将这些乐器从原始场景中取出,并将其导入 NVIDIA Omniverse 3D 模拟平台中进行编辑。

在任何传统图形引擎中,创作者都可以轻松为形状调换由 NVIDIA 3D MoMa 生成的材质,就像给网格穿上不同的衣服一样。例如该团队对小号模型采取了这种做法,将原来的塑料材质快速更换成黄金、大理石、木材或软木。

然后,创作者可以将新编辑的物体放入任何虚拟场景中。NVIDIA 团队将这些乐器放入了经典的图形渲染质量测试康奈尔盒中。他们证明了虚拟乐器对光线的反应与在物理世界中完全一样:闪亮的铜管乐器反射出亮光,哑光的鼓皮则会吸收光线。

这些通过逆渲染生成的新物体可以作为复杂动画场景的构成要素。

理论计算机视觉CVPR 2022英伟达
暂无评论
暂无评论~