Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

看透物体的3D表示和生成模型:NUS团队提出X-Ray

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

图片

  • 项目主页:https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html
  • 论文地址:https://arxiv.org/abs/2404.14329
  • 代码地址:https://github.com/tau-yihouxiang/X-Ray
  • 数据集:https://huggingface.co/datasets/yihouxiang/X-Ray

图片

如今的生成式AI在人工智能领域迅猛发展,在计算机视觉中,图像和视频生成技术已日渐成熟,如Midjourney、Stable Video Diffusion [1]等模型广泛应用。然而,三维视觉领域的生成模型仍面临挑战。

目前的3D模型生成技术通常基于多角度视频生成和重建,如SV3D模型[2],通过生成多角度视频并结合神经辐射场(NeRF)或者3D高斯渲染模型(3D Gaussian Splatting)技术逐步构建3D物体。这种方法主要限制在只能生成简单的、无自遮挡的三维物体,且无法呈现物体内部结构,使得整个生成过程复杂而且不完美,显示出该技术的复杂性和局限性。

究其原因,在于目前缺乏灵活高效且容易泛化的3D Representation (3D表示)。

图片

                                图1. X-Ray序列化3D表示

X射线能够穿透并记录关键物体内外表面信息,受到这个启发,新加坡国立大学(NUS)胡涛博士带领研究团队发布了一种全新的3D表示—X-Ray,它能够序列化地表示从相机摄像角度看过去的物体的逐层次的物体表面形状和纹理,可以充分利用视频生成模型的优势来生成3D物体,可以同时生成物体的内外3D结构。

本文将详细展示X-Ray技术的原理、优势及其广泛的应用前景。
图片
                                   图2. 与基于渲染的3D模型生成方法比较。

技术革新:物体内外表面的3D表示方法

X-Ray表示:从相机中心开始朝向物体方向的H×W个矩阵点发射射线。在每条射线方向上,逐个记录与物体的表面相交点的L个包含深度、法向量和颜色等的三维属性数据,然后将这些数据组织成L×H×W的形式,实现任意3D模型的张量表示,这就是该团队提出的X-Ray表示方法。

值得注意的是,该表示形式与视频格式一样,因此可以用视频生成模型做3D生成模型。具体过程如下。

图片

                                   图3. 不同层数的X-Ray示例样本。

1.编码过程: 3D模型转X-Ray

给定一个3D模型,通常是三维网格,首先设置一个相机观测该模型,然后通过光线投影算法(Ray Casting Algorithm)来记录每个相机射线与物体相交的所有表面的属性图片,包括该表面的深度图片,法向量图片,颜色图片等,为了指示方便,用图片表示该位置是否存在表面。

然后,获取所有相机射线等相交表面点,即可得到一个完整的X-Ray 3D表达,如下表达式和图3所示。

图片

通过编码过程,将一个任意的3D模型转化为X-Ray,它和视频格式是一样的,并且具有不同的帧数,通常情况下,帧数L=8 足够表示一个3D物体。

2.解码过程:X-Ray转3D模型

给定一个X-Ray,也可以通过解码过程转化回3D模型,这样只需要通过生成X-Ray即可生成3D模型。具体过程包括点云生成过程和点云重建表面两个过程。

  • X-Ray到点云:X-Ray很容易转化为点云,该点云中的每个点除了有3D点的位置坐标,还具有颜色和法向量信息。

图片

其中r_0,r_d分别是相机射线的起点和归一化方向,通过对每个相机射线的处理,就可以获得一个完整的点云。

  • 点云到三维网格:接下来就是将点云转化为三维网格的过程,这是一个被研究了很多年的技术,因为这些点云具有法向量,所以采用Screened Poisson 算法直接将点云转化为三维网格模型,即最终的3D模型。

基于X-Ray表示的3D模型生成

为了生成高分辨率的多样3D X-Ray模型,该团队使用了与视频格式相似的视频扩散模型架构。这个架构可以处理连续的3D信息,并通过上采样模块来提高X-Ray的质量,生成高精度的3D输出。扩散模型负责从噪声数据逐步生成细节丰富的3D图像,上采样模块则增强图像分辨率和细节,以达到高质量标准。结构具体如图4所示。

X-Ray 扩散生成模型

扩散模型在X-Ray生成中使用潜在空间,通常需要自定义开发向量量化-变分自编码器(VQ-VAE)[3] 进行数据压缩,这一缺少现成模型的过程增加了训练负担。

为有效训练高分辨率生成器,该团队采用了级联合成策略,通过技术如Imagen和Stable Cascaded,从低到高分辨率逐步训练,以适应有限的计算资源并提高X-Ray图像质量。

具体而言,使用Stable Video Diffusion中的3D U-Net架构作为扩散模型,生成低分辨率X-Ray,并通过时空注意机制从2D帧和1D时间序列中提取特征,增强处理和解释X-Ray能力,这对高质量结果至关重要。

X-Ray 上采样模型

前一阶段的扩散模型仅能从文本或其他图像生成低分辨率的X-Ray图像。在随后的阶段,着重提升这些低分辨率X-Ray至更高分辨率。

该团队探索了两种主要方法:点云上采样和视频上采样

由于已经获得了形状和外观的粗糙表示,将这些数据编码成带有颜色和法线的点云是一个很直接的过程。

然而,点云表示结构过于松散,不适合进行密集预测,传统的点云上采样技术通常只是简单增加点的数量,这对于提升诸如纹理和颜色等属性可能不够有效。为了简化流程并确保整个管道的一致性,选择使用视频上采样模型。

这个模型改编自Stable Video Diffusion(SVD)的时空VAE解码器,专门从头开始训练,以4倍的因子上采样合成的X-Ray帧,同时保持原始的层数。解码器能够在帧级和层级上独立进行注意力操作。这种双层注意力机制不仅提高了分辨率,还显著改善了图像的整体质量。这些功能使得视频上采样模型成为在高分辨率X-Ray生成中更加协调和有效的解决方案。

图片

                                图4:基于X-Ray表示的3D模型生成框架,包括X-Ray扩散模型与X-Ray上采样模型。

实验

1. 数据集:

实验使用了Objaverse数据集的一个筛选子集,从中移除了缺少纹理和不充分提示的条目。

这个子集包含超过60,000个3D对象。对于每个对象,随机选择4个摄像机视角,覆盖从-180到180度的方位角和从-45到45度的仰角,摄像机到对象中心的距离固定为1.5。

然后使用Blender软件进行渲染,并通过trimesh库提供的光线投射算法生成相应的X-Ray。通过这些过程,可以创建超过240,000对图像和X-Ray数据集来训练生成模型

2. 实现细节:

X-Ray扩散模型基于Stable Video Diffusion (SVD) 中使用的时空UNet架构,进行了轻微调整:模型配置为合成8个通道:1个命中通道,1个深度通道和6个法线通道,与原始网络的4个通道相比。

鉴于X-Ray成像与传统视频之间的显著差异,从头开始训练模型,以弥补X-Ray与视频领域之间的大差距。训练在8个NVIDIA A100 GPU服务器上进行了一周。在此期间,学习率保持在0.0001,使用AdamW优化器

由于不同的X-Ray具有不同数量的层,将它们填充或裁剪到相同的8层,以便更好地批处理和训练,每层的帧尺寸为64×64。对于上采样模型,第L层的输出仍然是8,但每个帧的分辨率提高到256×256,增强了放大X-Ray的细节和清晰度,结果如图5和图6所示。

图片

                              图5:图像到X-Ray并到3D模型生成

图片

                                 图6:文本到X-Ray并到3D模型生成

未来展望:新表示带来无限可能

随着机器学习图像处理技术的不断进步,X-Ray的应用前景无限广阔。

未来,这种技术可能会与增强现实(AR)和虚拟现实(VR)技术结合,为用户创造出完全沉浸式的3D体验。教育和训练领域也可以从中受益,例如通过3D重建提供更为直观的学习材料和模拟实验。

此外,X-Ray技术在医疗影像和生物技术领域的应用,可能改变人们对复杂生物结构的理解和研究方法。期待它如何改变与三维世界的互动方式。 

参考文献:

[1] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, and Robin Rombach. Stable video diffusion: Scaling latent video diffusion models to large datasets. CoRR, 2023.

[2] Vikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, Varun Jampani. SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion. arXiv preprint arXiv:2403.12008, 2024.

[3] Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu. Neural Discrete Representation Learning. NeurIPS-2017.

[4] Tao Hu, Wenhang Ge, Yuyang Zhao, Gim Hee Lee. X-Ray: A Sequential 3D Representation for Generation. arXiv preprint arXiv: 2404.14329v1, 2024.

产业3D模型生成X-Ray
相关数据
Varun Jampani人物

英伟达研究院研究科学家。研究领域:计算机科学和机器学习的交叉领域,具体来讲,利用机器学习技术提高计算机视觉模型的推断性能。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

点云生成技术

点云生成即生成点云数据的任务。

暂无评论
暂无评论~