
论文链接:https://arxiv.org/abs/2301.11280
项目链接:https://make-a-video3d.github.io/

让我们看一下 MAV3D 从文本生成 4D 动态场景的效果:






第一,需要使用新的、允许灵活场景运动建模的 4D 表征;
第二,需要使用多级静态到动态优化方案来提高视频质量和提高模型收敛性,该方案利用几个 motion regularizer 来生成真实的运动;
第三,需要使用超分辨率微调(SRFT)提高模型的分辨率。





Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
不再需要任何 3D 或 4D 数据,来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。
论文链接:https://arxiv.org/abs/2301.11280
项目链接:https://make-a-video3d.github.io/
让我们看一下 MAV3D 从文本生成 4D 动态场景的效果:
第一,需要使用新的、允许灵活场景运动建模的 4D 表征;
第二,需要使用多级静态到动态优化方案来提高视频质量和提高模型收敛性,该方案利用几个 motion regularizer 来生成真实的运动;
第三,需要使用超分辨率微调(SRFT)提高模型的分辨率。
在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。
虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。
映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。