Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型

AI 生成 3D 模型最难的一关,终于被搞定了。

无需任何训练数据,只需对着模型描述一句话,如「一个做作业的香蕉人」:

图片

或是「一只戴着 VR 眼镜的猫」:

图片

就能生成符合描述的带有高质量纹理贴图的 3D 场景。不仅如此,还能对已有的 3D 模型进行精细化贴图。

图片

这是港大与清华大学联合 3D 生成明星公司 VAST AI 研发的一种新方法,它能够从复杂的文本描述中,直接生成富有想象力的高质量 3D 模型。

图片

目前,这项研究成果已被人工智能顶级会议 ICLR 2024 收录,代码也已经开源。对这项研究感兴趣的小伙伴,可以戳下方项目主页和论文地址查看。

  • 论文地址:https://arxiv.org/abs/2310.19415
  • 项目地址:https://xinyu-andy.github.io/Classifier-Score-Distillation
  • 代码地址:https://github.com/CVMI-Lab/Classifier-Score-Distillation
  • 论文标题:Text-to-3D with Classifier Score Distillation

所以它究竟是如何做到的?在了解新方法是什么之前,我们先来了解目前已有的方法存在什么问题。

传统生成模型面临的困境

在交互式游戏、电影艺术、增强 / 虚拟现实以及仿真技术等多个应用场景中,高质量的三维资产创建一直是一个重要且具有挑战性的问题。

目前大多数生成模型都依赖于本领域的大量高质量数据做训练,但在 3D 领域,这样的数据集非常匮乏。这导致目前基于 3D 数据训练的 3D 生成模型的效果还无法复刻图像领域的成功。

基于 2D 先验的 3D 生成方法

为了解决这一问题,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,证明了可以通过预训练的二维扩散模型生成高质量和复杂的三维结果。这一范式的优势在于无需任何 3D 数据预训练即可生成 3D 模型,这一架构也一直被研究者们和后续工作所沿用,例如 Nvidia 的 Magic3D 等。其核心理论在于通过激励其渲染图像移向文本条件下的高概率密度区域,来反向生成 3d 场景。

尽管基于 SDS 的方法取得了令人瞩目的成果,然而,本文的研究者们发现,基于 SDS 的方法在实际实现中总是与理论出现一些差距,主要是因为普遍依赖于 Classifier-Free Guidance (CFG)。

在使用 CFG 时,推动优化的梯度实际上包含两个部分:一是数据密度的梯度,二是后验函数的梯度。其中前者对应于 SDS 理论中的关键部分,而后者仅仅是在实验过程中才加入的辅助手段。

分类器分数蒸馏:重塑 3D 生成的关键所在

这篇论文的核心贡献,在于重新评估了 SDS 中 CFG 的角色,发现 CFG 不仅仅是辅助手段,恰恰相反,它才是文本到三维生成中的关键驱动。由于这一部分可以被解释为一个隐式的分类模型,研究者们将这一新范式命名为分类器分数蒸馏(Classifier Score Distillation, CSD)

这一发现从根本上改变了我们对基于分数蒸馏成功的文本到三维生成机制的理解。具体而言,其有效性来自于从隐式分类器中提炼知识,而不是依赖于生成先验。

CSD 的引入使得我们能够重新审视现有技术设计选择。例如,研究者们展示了负面提示可以被视为负分类器分数,从而制定了一个渐进式的负分类器分数优化策略,这增强了生成质量,同时保持了与提示的结果忠实度。

此外,研究还揭示了利用分类器分数进行高效的基于文本驱动的三维编辑的可能性,以及将变分分数蒸馏技术 (Variational Score Distillation) 视为一种自适应性的负分类器分数优化形式。

实验效果

CSD 不仅在理论上对文本到三维生成领域提供了新的视角,而且在实际应用中也表现出优越的性能。

在主要的 3D 生成任务上的实验结果显示,在文本对齐和视觉质量方面,该方法相较于 Dream Fusion、Magic3D、Fantasia3D 等现有技术有显著提升,生成的纹理也真实丰富。

在速度上,CSD 在单个 A800 GPU 上只需 1 小时即可完成任务,而能达到同样视觉效果的 Prolific Dreamer 方法则需要长达 8 小时。这一显著的速度优势,加上其出色的生成质量,证明了 CSD 技术的高效性和实用性。

此外,定量评估中采用的 CLIP R-Precision 指标进一步证实了 CSD 的优越性。用户研究也显示 59.4% 的参与者更倾向于选择 CSD 生成的结果。

图片

实验部分还对比了 CSD 在纹理生成这一任务上的能力,与多个方法进行比较,实验结果显示无论从效果还是用户研究中都优于其他方法。

图片

此外,研究者们还展示了如何利用 CSD 对现有的 3D 场景进行编辑,如下图所示,你可以使用 CSD 将一个香蕉人编辑为一个黄瓜人,将模特身上的苔藓编辑为鲜花,而不损失其他部分。

图片

总而言之,CSD 从理论出发,重新思考了目前 3D 生成的关键所在,重塑优化目标,最终在多个任务上显示出其优越性与强大的潜力。通过对这一新范式的深入探索和应用,我们能够更有效地从文本描述中生成高质量、高精度的三维内容,这对于三维内容创造领域的未来发展具有深远的影响。
工程分类器分数蒸馏VAST AI
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推荐文章
暂无评论
暂无评论~