机器之心编辑部机器之心报道

建造自己的「天空之城」,密歇根大学博士后的这项研究可以虚空造物、偷天换日

看过宫崎骏动画电影《天空之城》的小伙伴,想必偶尔会向往那座神秘的空中岛屿拉普达吧。近日,密歇根大学安娜堡分校博士后研究员 Zhengxia Zou 进行了一项研究,不仅可以创建空中堡垒,更可以转变场景中的天气和光照,让你有身临其境的感觉。此外,这项研究完全基于视觉,能够很好地应用于在线或离线场景,且可以执行实时处理。


哈尔的移动城堡?天空之城?这幅图是否让你想起了这两部电影中的场景……
上:《天空之城》剧照;下:《哈尔的移动城堡》剧照。 是电影场景变为现实了吗?真的有人建造了一座空中楼阁?答案是也不是。 这座空中城堡的确是人为「构建」的,但并非真实存在。它是密歇根大学博士后研究员 Zhengxia Zou 近期一项研究所呈现的效果。
荒野、公路、疾驰的汽车,还有天边的巨型神秘建筑物,有科幻 / 末世电影内味儿了。然而,这幅场景竟然是从晴空万里的画面转换而成的。公路片变身科幻片?! 别急,还有大招。(以下示例左图为原始画面,右图为处理后画面。)

 右图场景是不是更像《天空之城》了?
这场景让人想起一句歌词「打开这深夜,抚摸寒星光,我只想走进圆月亮」。 除了改变天空(比如增加悬浮城堡、改变色彩和云朵等),这项技术还能变换场景中的天气和光照。

今日天气多云转晴。

雷暴预警!一瞬间天昏地暗,雷电交加。 看起来,这项技术似乎都可以用到电影业了。那它是如何做到的呢? 这项研究提出一种用于视频中天空置换与协调的视觉方法,该方法能够在风格可控的视频中自动生成逼真的天空背景。以往的天空编辑方法要么针对静态图片,要么需要在智能手机上集成惯性测量单元(IMU)以便拍摄视频,而这项研究是完全基于视觉的,对视频捕获设备没有任何要求,还能很好地应用于在线或离线场景。此外,该方法可以执行实时处理,无需用户交互。 研究人员将这个艺术加工过程分解成 3 个任务:天空抠图(sky matting)、运动估计和图像融合,并在智能手机和行车记录仪在户外采集到的视频上进行了实验,结果表明该方法在视觉质量以及光照、动态方面均具有高保真度和不错的泛化性。

  • 论文地址:https://arxiv.org/pdf/2010.11800.pdf

  • GitHub 地址:https://github.com/jiupinjia/SkyAR

  • 项目主页:https://jiupinjia.github.io/skyar/

  • Google Colab 地址:https://colab.research.google.com/drive/1-BqXD3EzDY6PHRdwb3cWayk2KictbFaz?usp=sharing

方法

下图概述了该研究提出的方法,它由 3 个模块组成:天空抠图网络、运动估计算法以及 skybox。

天空抠图网络用来检测视频帧中的天空区域。与以往将此过程定义为二元像素级分类(前景 vs 天空)问题的方法不同,该研究设计了一种基于深度学习的由粗到细的预测 pipeline,以产生更精确的检测结果和更悦目的混合效果。 运动估计算法用于恢复天空的移动。虚拟摄像机捕获的天空视频需要在真实摄像机的运动下进行渲染和同步。该研究假设天空以及天空中的物体(例如,太阳、云等)位于无穷远,并用 Affine 矩阵建模它们相对于前景的运动。 skybox 模块用于天空图像的扭曲和混合。给定前景帧、预测的天空抠图、运动参数,skybox 将基于运动扭曲天空背景并将其与前景混合。skybox 还应用了重光照和重新着色技术,使混合结果在颜色和动态范围方面更加逼真。 实现细节 该方法使用 ResNet-50 作为天空抠图网络的编码器(全连接层被移除)。解码器部分包括 5 个卷积上采样层(coordinate 卷积 + relu + 双线性上采样)和一个像素级预测层(coordinate + sigmoid)。该研究方法遵循 UNet [30] 的配置,并在具有相同空间大小的编码器层与解码器层之间添加残差连接。表 1 显示了该网络的详细配置:

实验

天空增强和天气模拟

除了前文及上图展示的处理效果以外,该研究还展示了该方法与 CycleGAN 方法之间的对比结果,具体如下图 5 所示:

图 5:该研究提出方法与 CycleGAN 的定性对比结果。

下表 2 给出了在不同天气转换场景下这两种方法的图像保真度定量对比结果。该研究提出的方法在两个定量度量指标和视觉质量上均显著优于 CycleGAN。

速度 下表 3 展示了该研究提出方法的速度:

研究人员使用配备一块英伟达 Titan XP GPU 和英特尔 I7-9700k CPU 的台式机进行推断速度测试。对于不同输出分辨率而言,处理速度有所不同:该方法在输出分辨率为 640×320 时实现了实时处理速度 (24 fps),在输出分辨率为 854×480 时实现了接近实时处理的速度 (15 fps),不过仍有很大提升空间。 根据统计,天空抠图阶段需要花费相当多的时间,因此用更高效的 CNN 主干网络(如 MobileNet 或 EfficientNet)替换 ResNet-50,可以提高处理速度。 局限性 该方法也存在一些局限性。

首先,天空抠图网络仅基于白天的图像训练,因此该方法可能无法检测夜晚视频中的天空区域。

其次,当视频特定时间段没有天空像素时,或者天空中没有纹理时,该方法无法精确建模天空背景的运动。

下图 8 展示了两个失败案例:

作者简介

本文作者 Zhengxia Zou 现为密歇根大学安娜堡分校的博士后研究员。他先后于 2013 年和 2018 年取得北京航空航天大学的学士和博士学位。其研究兴趣包括计算机视觉及其在遥感、自动驾驶汽车和电子游戏等领域的相关应用。 他参与撰写的论文被 AAAI、CVPR、ICCV、ACM MM 等多个学术顶会接收。此外,他还曾担任 NeurIPS、AAAI、ACCV 和 WACV 等多个学术会议的程序委员,以及 ICLR 会议及 IEEE Transactions on Image Processing 等多份期刊的审稿人。 此前,机器之心报道过的一项用人脸照片生成游戏专属角色的研究也有他的参与。

理论计算机视觉领域密歇根大学
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐文章
暂无评论
暂无评论~