Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。


一直以来,创作 3D 内容是设计和开发视频游戏、增强现实虚拟现实以及影视特效中最重要的部分。

然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。

  • 首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;
  • 其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和视频中学习,而且需要从部分 2D 观察中推断出 3D 信息;
  • 传统方法生成的3D 资源通常难以实现逼真的照明和材质属性,从而限制了它们在专业工作流程中的实用性;
  • 3D生成是一个非常耗费算力的过程,主要因为它涉及到复杂的计算和大量的数据处理,如实时渲染、细节处理。并且由于算力不够,可能会导致生成速度非常慢。

在生成式AI爆发的当下,很多研究者开始尝试针对以上问题提出解决方案。

刚刚,Meta发布了最新系统Meta 3D Gen (3DGen),其用不到一分钟的时间,就能直接从文本生成3D资产。
图片
  • 论文地址:https://ai.meta.com/research/publications/meta-3d-gen/?continueFlag=24428397aaeb0cc6751570d48a532d36

3DGen支持基于物理的渲染 (PBR),这是在实际应用中重新照明 3D 资产所必需的。此外,3DGen 还支持使用用户提供的额外文本输入对先前生成的(或艺术家创建的)3D 形状进行重新纹理化。

比如下面所展示的,借助3DGen,研究者渲染出了一只金属色的小狗:  

图片

未来感满满的机器人:  

图片

3DGen还能对生成的对象纹理进行进一步编辑和定制,同样的方法也可以应用于艺术家创建的3D网格纹理而不需要修改。如下所示,3DGen将艺术家创建的3D资产渲染成彩色的蝴蝶。

图片

蝴蝶「变身」为用粉色和绿色纱线编织的蝴蝶玩具。

图片

通过展示可以看出,即使是复杂的文本提示,3DGen也能很好地遵循指令,生成的3D形状和纹理质量也比较好。

以下是论文中的具体信息。
 
Meta 3D Gen基本原理

Meta 3D Gen 是一种两阶段方法,包括两个关键组件:用于创建 3D 网格的 Meta 3D AssetGen 和用于生成纹理的 Meta 3D TextureGen。

这些技术协同工作,可生成具有高分辨率纹理和PBR材质的 3D 资产。Meta表示,该流程的速度是现有解决方案的 3 到 10 倍。

图片

第一阶段为3D 资产生成阶段。在这一阶段,根据用户提供的文本提示,Meta 3D AssetGen(简称 AssetGen)创建初始 3D 资产。此步骤生成具有纹理和 PBR 材质贴图的 3D 网格。推理时间约为 30 秒。

接下来是第二阶段。给定第一阶段生成的 3D 资产和用于生成的初始文本提示,第二阶段将基于该资产和提示生成更高质量的纹理和 PBR 贴图。第二阶段用到了文本到纹理生成器 Meta 3D TextureGen(简称为 TextureGen)。推理时间约为 20 秒。

此外,给定一个无纹理的 3D 网格和描述其所需外观的提示,第二阶段还可用于从头开始为该 3D 资产生成纹理(网格可以是先前生成的,也可以是艺术家创建的)。推理时间约为 20 秒。

下图为第一阶段和第二阶段可视化对比。后者往往具有更高的视觉美感,看起来更逼真,细节频率更高。

图片

我们不难发现,3DGen 以 AssetGen 和 TextureGen 为基础,将3D 对象的三个关键信息进行了很好的互补:视图空间(对象的图像)、体积空间(3D 形状和外观)和 UV 空间(纹理)。

此过程从 AssetGen 开始,通过使用一个多视角和多通道的文本到图像生成器,生成关于物体的几个相对一致的视图。接着,AssetGen中的一个重建网络会在体积空间中提取出3D对象的第一个版本。此过程接着进行网格提取,建立对象的3D形状和其纹理的初步版本,这一系列步骤构成了从文本描述到3D模型的转换过程。最后,TextureGen 组件利用视图空间和 UV 空间生成的组合来重新生成纹理,提高纹理质量和分辨率,同时保持对初始提示的保真度。

实验对比

运行时间和功能上的对比

论文将3DGen的性能与业界领先的文本到3D生成模型进行了比较,包括 CSM、Tripo3D、Rodin Gen-1 V0.5、Meshy v3等。
图片
在时间上,stage1最快的是Tripo3D(经过笔者实测,Tripo3D线上版本目前stage1为10秒,stage2是2分钟);stage2最快的是Meta 3D Gen,Tripo3D紧随其后,Rodin Gen-1 V0.5排名第三,用了2-30分钟完成。

在功能上,除了Rodin支持重拓扑之外,笔者实测Tripo3D也支持retopology。
 
定量评测指标

表2主要表现了不同模型遵循 prompt的结果。主要关注text-to-3D,实验中用了来自2023 Google DreamFusion论文中的404个prompt,细分为物体(156)、角色(106) ,组合角色物体 (141),难度由低到高。定量对比部分全部是user study(用户偏好)。
图片
结果表明:在text-to-3D比较重要的prompt fidelity指标上:

  • 综合排序为:Meta 3D Gen >  Third-party T23D generator > Tripo3D > Meshy v3 > CSM Cube 2.0 >  Rodin Gen-1 。其中前三名差距很小(3个点的差距,404个prompt中的12个)。CSM和Rodin相较其他方法有明显差异,Rodin和3DGen相比,两者相差 21.8个点。
  • 分项评测方面,最简单的objects中表现最好的是Meshy v3。角色类和复杂组合概念的表现代表了技术水准,也是3D产业应用中最重要的部分,Meta在复杂组合上排名第一,Tripo3D则是难度越高表现越强,仅次于Meta,和第一名差距很小。

图片

表3比较了Meta和其他方法的A/B win rate和loss rate结果,数字win rate越低代表所对比方法越强,loss rate越高代表所对比方法越强,可以得出: 
  
  • Meshy v3纹理分最高、Rodin纹理分最低;
  • Rodin几何分比较高;
  • 在综合性一致性、整体质量方面,Rodin表现不佳;
  • All users和专业用户打分标准可以看出略有不同,但排名趋势是一样的:对几何和纹理的正确性给予了更多的权重

图片

上图横坐标是前面提到的prompt复杂度,纵坐标是Meta win rate,低于50%说明对比方法比Meta好,折线越低说明方法越好。图中比较了多个维度,包括prompt还原度、综合视觉质量、几何视觉质量、纹理细节、纹理瑕疵等指标。

Meta在论文中谈到越复杂的prompt,他们的方法优势越明显,这个其实和前面Table 2中Tripo3D的趋势和优势是一致的。可以推测如果这里加上Tripo3D,Tripo和Meta应该不分伯仲。
 
定性质量对比

在这篇论文中,Meta还给出了几个模型的定性结果对比图,我们可以从这些图中看出一些差别。

图片

从prompt遵循程度来看,3DGen表现优秀,比如对于第一行的羊驼雕塑,它可以把prompt中提到的logo文字写上。但以第三行的case为例,CSM的语义理解较弱,Tripo则展现了其他模型都失败的「被锻造的锤子」,甚至还基于推理生成了3DGen没有考虑到的炭火。

但综合几何细节和纹理细节来看,3DGen的纹理细节略显粗糙,Meshy和Rodin的第一行几乎没什么纹理,而Tripo3D的纹理结果则要好得多,几何细节非常丰富,人、物也更保真,不像3DGen一样有时候脸会垮掉。

图片

图7表现了同一场景下的比较结果,包括 Tripo3D 、Meshy v3 、以及 3DGen。综合来看,Meshy方法生成的纹理瑕疵多一些、生成的几何粗糙一些;放大来看,Tripo和3DGen效果不相上下,但Tripo生成结果更形象、灵动一些。

图片

                            笔者用Tripo尝试了测试集中的龙蛋效果

3D生成来到「ChatGPT时刻」前夜

3D生成赛道其实一直是资本市场的宠儿。A16Z接连对3D生成赛道出手,除了最近名声大噪的Luma Labs之外,Meta论文中提到的CSM,Google系的Yellow,还有曾经争议较大的Kaedim都是A16Z的被投明星企业。

在Meta论文中参与比较的工作中Meshy出自知名学者胡渊鸣的团队,Tripo则出自之前和Stability AI发布TripoSR的团队VAST。

Meta此篇论文中引用了不少VAST团队的论文,不仅包括TripoSR,也包括刚被ECCV收录的UniDream、曾经爆火的Wonder3D、Triplane meets Gaussian splatting等等。

据笔者根据Tripo官方海外媒体信息,全球开发者已经基于TRIPO生成了近四百万个3D模型,TripoSR上线一周就在Github上拿到了3K+的star量。基于这种人气,Tripo社区也推出了全球第一个AI 3D全球渲染大赛。
据笔者调研,不管是CG还是3D打印领域都有许多目前的落地探索,不管是全球最大的3D素材交易网站CG模型网定向邀请创作者测试,还是3D打印龙头开始探索AI,都体现出比想象中更快的商业化落地速度。
图片

图片

                          VAST上线Anycubic的模型社区网站Makeronline和CG模型网

Keadim则选择和初创团队Nakkara一起探索3D打印业务:
图片
总体来看,3D生成技术在学术和行业落地层面都不断取得突破性进展,我们有理由相信,3D大模型会释放更多潜力。

扩展阅读:

开创全新通用3D大模型,VAST将3D生成带入「秒级」时代
0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR
胡渊鸣创业公司Meshy产品升级:文本转3D,25秒就能出预览

产业Meta 3D GenMeTA3D 生成
1
相关数据
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

图生成技术

根据给定信息信息生成图表。

文本到图像生成技术

文本到图像生成是从文本描述或标题生成图像的任务。

推荐文章
暂无评论
暂无评论~