杜伟、张倩编辑

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的

霍格沃兹的魔法世界,似乎离我们越来越近了。


或许是受到「霍格沃兹」魔法世界的启发,近年来,人们为了让静态的照片动起来花了不少功夫 。不过,之前的很多研究针对的都是人物,水流、烟雾等自然场景的研究相对较少。但如果翻看手机相册的话,景物照可不比人像少。

对于人类而言,一张图像通常不仅仅是像素的集合。根据我们以往对世界的观察,当拍摄图像时,我们不仅可以识别出物体、结构,还可以想象到场景的运动方式。通过这些先验,我们常常可以想象到图像的动态展示场景,例如烟囱冒烟、湖波荡漾等。

在华盛顿大学和 Facebook 的一项新研究中,研究者们提出了一个从真实场景视频中学习相同运动先验的系统,该系统可以利用一张全新的静态图像合成合理运动,并渲染出基于该图像的场景动画视频。


论文链接:https://arxiv.org/pdf/2011.15128.pdf

以下是本文所提方法的转换效果:





可见人工智能模型的脑补能力不仅限于单一场景了。AI 的创作,看起来有一点延时摄影的感觉。

方法详解

一般场景运动极其复杂,包含透视效果、遮蔽区域和瞬时状态。而在本研究中,研究者只考虑流体运动,例如可以很好地利用欧拉运动来近似的烟、水和云,特别是静态速度场中的粒子运动。

本文方法以单一静态图像为输入,生成循环播放的视频纹理。研究者首先使用一个图像到图像转换网络来合成欧拉运动场,并且该网络通过提取自在线自然场景视频素材的成对图像和运动场来训练。然后,通过欧拉积分,运动场定义输出视频序列中每个源像素的轨迹。

给定源像素在未来帧中的位置,研究者使用深度变形技术来渲染相应帧。具体而言,研究者使用一个编码器网络将输入图像转换成深度特征图,使用一种新的时序对称抛雪球算法来 warp 这些特征,并使用解码器网络来复原相应的 warped 彩色图像。最后,为了确保输出视频实现无缝循环,研究者使用了一种在深度特征空间运行的视频循环技术。

整个方法的 pipeline 如下图所示:



如图所示,给出一张输入图像 I_0,运动估计网络将预测出一个运动场 M。通过欧拉积分,M 被用来生成未来和过去的位移场 F_0→t 和 F_0→t−N,它们定义了其他所有帧 t 中的源像素位置。为了使用估计的运动让输入图像动起来,研究者首先使用了一个特征编码器网络,将图像编码为一个特征图 D_0。接下来,使用一种新的对称抛雪球技术,借助位移场对上述特征图进行变形,生成对应的变形特征图 D_t。最后,将变形的特征提供给解码器网络来创建输出视频帧 I_t。

实验效果

研究者通过比较预测运动与未来视频帧中的 ground-truth 像素位置来验证本文提出的运动表示的有效性。结果如下图 7 所示,由此可见该方法可以最忠实地重现场景的 ground-truth 运动。


然后,研究者对本文以及其他变形技术进行了评估,分别使用到了 PSNR、SSIM 和 LPIPS 三项指标。下表 1 给出了这些方法的定量比较结果,表明当提供相同运动时,本文变形技术在合成未来帧时优于其他方法。


最后,研究者们评估了循环技术的优劣。表 2 展示了用户研究的结果,新提出的方法相比其他已有方法具备优势。


除了论文和技术展示的视频,华盛顿大学的研究人员们还计划将该研究的代码公布在 GitHub 上。

随着技术的不断深入,我们正在看到人工智能展现出越来越多的创造力。未来,不知道这样的技术是否会为我们带来一些新奇的应用。

Powered by Froala Editor

理论图像生成抛雪球算法
1
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

推荐文章
暂无评论
暂无评论~