Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部编辑

SIGGRAPH Asia 2023 | 中山大学HCP实验室提出DreamEditor:首创文本驱动的3D场景高效编辑

你能够使用文本提示对NeRF进行受控编辑啦!

中山大学 HCP 实验室联合宾夕法尼亚大学Penn Computer Graphics Lab实验室共同发表论文《DreamEditor: Text-Driven 3D Scene Editing with Neural Fields》,该论文已被 SIGGRAPH Asia 2023接收。该工作主要由庄景宇、王琛等人完成。

NeRF及其后续研究在场景重建和新视角合成方面取得了显著进展。通过采集三维场景的多视角图像,并使用SFM(Structure from motion)估计相机姿态,我们可训练NeRF以隐式方式表达场景的几何和纹理。与传统流程中繁琐的三维匹配和复杂后处理步骤相比,这大大简化了将现实世界中的物体和场景重建为3D图形资源的过程。然而,编辑捕捉到的NeRF场景并不容易,因为场景的形状和纹理信息嵌入在高维神经网络特征中。

本文提出了DreamEditor,这是一个新颖的NeRF编辑框架,通过结合预训练的文本到图片扩散模型stable diffusion,使用户能够使用文本提示对NeRF进行受控编辑。

论文链接: https://arxiv.org/abs/2306.13455

背景介绍

目前,已有研究致力于探索 NeRF 编辑技术,例如移动或删除场景中的对象、修改纹理以及改变物体位置,但这些编辑过程仍然需要大量手动操作。另一方面,某些工作利用 CLIP 模型,允许使用文本提示或参考图像进行编辑,但仍受限于简单的编辑对象和有限的编辑功能。我们的方法采用分数蒸馏采样损失(SDS Loss),从预训练的文本到图像扩散模型中提取先验信息,用于指导 NeRF 场景的编辑。

方法概述

我们的方法的输入是一组3D场景中带相机参数的图像以及用于编辑的文本提示。我们的目标是根据文本提示改变原始3D场景中感兴趣对象的形状和外观。DreamEditor 的框架如图2所示,由三个阶段组成。我们首先通过场景图像训练一个原始NeRF,并将原始NeRF转换为基于网格的NeRF,这使得我们能够实现空间选择性地编辑。然后,我们根据文本提示中的关键词在3D场景中定位编辑区域。最后,我们通过T2I扩散模型在文本提示的指导下编辑NeRF的目标对象。各步骤具体流程如下:

①Mesh-based的NeRF生成:我们使用输入图像训练一个NeRF,并将其蒸馏为Mesh-basedNeRF,其中 mesh 是从原始 NeRF 中通过 marching cubes 提取的。将场景表示为Mesh-basedNeRF带来了两个优势。首先,Mesh-basedNeRF允许对特定区域进行精确编辑。对于编辑无关的区域,例如背景和无关对象,可以通过固定 mesh 上的特定区域特征来保持其在编辑过程中不变。其次,提取的mesh可以明确表示场景中物体的表面和轮廓,更方便确定编辑区域的范围。

②确定编辑区域:结合扩散模型的注意力机制,我们进一步提出了一种自动确定编辑区域的方法。该方法可以根据输入的文本准确地定位网格中的编辑区域。给定文本提示,DreamEditor 首先在渲染视图中确定目标编辑区域,为每个渲染视图获得一个目标区域的2D mask。最后,通过从不同的视角将mask的目标区域反投影到mesh上,从而获得了3D 场景中的编辑区域。图3中展示了一些编辑样例中的定位结果(红色区域)。

③优化编辑区域:在这一步中,我们采用 DreamFusion提出的 SDS 损失来利用T2I 扩散模型对Mesh-basedNeRF中的编辑区域进行优化,使场景符合文本描述。通过将随机渲染的视角和文本提示输入 T2I 扩散模型,我们计算 SDS 损失并将梯度反向传播到Mesh-basedNeRF中,更新模型参数。

实验结果


我们提供了展示了我们方法的结果。结果表明,我们的方法能够有效地在不同场景中执行目标编辑的神经场。即使在复杂的场景中,如户外花园,我们的方法也能够准确确定马雕塑作为编辑区域,随后将其变成具有高质量纹理和几何的鹿或长颈鹿。此外,我们的方法还能够进行局部编辑,例如在图 1 底部为狗戴上太阳镜。

值得注意的是,如下图所示,我们方法产生的编辑结果在 3D 几何方面表现出色,可以直观地在提取的网格中观察到。

表格1展示了CLIP文本到图像方向Loss的结果。结果显示我们的方法获得更高的分数,表明生成的形状和纹理更清晰、更符合文本提示。如表格1的末列所示,经用户投票,我们的方法获得超过81.1%的选票,远超其他方法。这进一步证明了DreamEditor在不同场景下能够实现更高的用户满意度。

为了凸显定位步骤的必要性,我们设计了两个对比实验:(1)无定位:省略定位步骤,优化网格上的所有特征。(2)我们的方法:通过定位步骤确定编辑区域,在优化过程中固定非编辑区域。如图 6(1) 所示,在没有定位步骤的情况下进行编辑会改变场景的无关区域,例如缩短玩偶的手臂,从而破坏了物体的一致性。相反,定位步骤使我们的框架仅优化感兴趣的区域。这一鲜明对比充分展示了定位步骤的重要性。

更多编辑样例可见下列视频:

https://www.sysu-hcp.net/userfiles/videos/dreamEditor.mp4

HCP实验室简介

中山大学人机物智能融合实验室 (HCP Lab) 由林倞教授于 2010 年创办,近年来在多模态内容理解、因果及认知推理、具身智能等方面取得丰富学术成果,数次获得国内外科技奖项及最佳论文奖,并致力于打造产品级的AI技术及平台。实验室网站:http://www.sysu-hcp.net

理论3D中山大学
1
暂无评论
暂无评论~