蛋酱报道

2D 转3D,在《流浪地球》中感受太空漂浮,爱奇艺推出「会动的海报」

深度学习技术的加持下,每一张平面图像都能转换为效果惊艳的3D图像?我突然有一个大胆的想法……

相比于 2D 内容,能产生身临其境感的 3D 内容仿佛总是会更吸引人。

自从 3D 电影诞生以来,人们从未停止过立体影像的追求。随着近年来 5G 技术的落地,VR 行业也将迎来新的突破,众多游戏玩家和电影观赏者也会因此获得更加新奇的视觉体验。但 VR 场景里 3D 内容的缺乏一直是行业内的一个痛点。

以 3D 电影制作为例,在现阶段,每一部 3D 电影的后期制作都需要投入巨大的资金和人力成本,这些现实条件严重阻碍了 3D 内容的丰富发展。

最近,来自爱奇艺的团队介绍了一种 3D 内容转换的 AI 模型,可通过深度学习技术将 2D 内容快速、批量、全自动地转制成 3D 内容。在减少 3D 内容制作成本的同时,为用户提供更多高质量的立体化影像

对于任何电影画面来说,都能够转化为 3D 场景:

也可以用来制作立体动态猫片:

这样的效果是如何实现的呢?

模型框架解析

想要把 2D 内容转换为「真假难辨」的 3D 内容,前提是要了解真实人眼的 3D 感知:「为什么在人眼中,世界是立体的?」

对于 3D 介质来说,越是符合真实世界中人眼的 3D 感知,就会越受到用户的喜爱。因此在模型构建上必须符合真实世界的 3D 观感——双目视觉。

图 1:双目相机成像与视差原理。

如图 1 左所示,两个相机拍摄同一场景生成的图像会存在差异,这种差异叫「视差」。视差不能通过平移消除,一个物体离相机越近,视差偏移就越大,反之则越小。

人的左右眼就如同图中的左右相机。在双眼分别获取对应图像后,通过大脑合成处理这种差异,从而获取真实世界的 3D 感知,视差与相机焦距和轴间距间的关系如通过图 1 右所示:

以上为公式(1),其中 z 为物体距离相机的深度,x 为三维映射到二维的图像平面,f 为相机焦距,b 为两个相机间的距离轴间距,x_l 和 x_r 分别为物体在左右不同相机中成像的坐标,因此可知左右图对应像素 x_l 和 x_r 的视差。

同时,考虑到转制的对象为 2D 介质,因此,通过单目深度估计合成新视点的算法原型诞生:通过公式 (1) 可知,假设有一个函数

那么就有:

公式(2)。

通过公式(2)可知,只需要将 图 1 左 作为训练输入,图 1 右 作为参考,即可建立深度学习模型,通过大量双目图片对训练估计出函数𝐹。这样就可在已知相机参数 (𝑏,𝑓) 的前提下获取对应的深度值𝑧,完成单目深度估计的任务。

通过公式(1)与公式(2)可以发现,深度与视差成反比,因此深度估计和视差估计的方法可以互用。

在项目实践过程中,团队尝试了非常多的关于新视角生成的方案,包括经典的 Deep3D、基于生成网络、基于中间视差图等视角生成方案等等,最终确定了更便于引入 3D 电影数据的 Monodetph 无监督训练作为我们的 baseline 方案

在项目实践过程中,团队对比考虑了以下几种 3D 视觉生成方案,但每一种方法都会存在自身的缺陷:

  • Junyuan Xie 等人提出的 Deep3D 虽然通过视差概率估计实现 2D 到 3D 介质的转换,但固定视差的设定,难以适应不同分辨率 2D 介质输入;

  • Ravi Garg 等人 2016 年提出的方法没有充分利用双目信息作指导,景深不够细;

  • Clement Godard 等人提出的 monodepth 在 Ravi Garg 等人的方法基础上,充分利用了双目信息进行对抗指导,学习到更多深度细节;

  • Tinghui Zhou 等人提出的 SfmLearner 方法引入帧间时序信息,结构较复杂,运行速度慢。

基于实现及适用性考虑,研究者最终确定了更便于引入 3D 电影数据的 Monodepth 为 Baseline,其框架结构如图 2 所示:

图 2:monodepth 框架图。

通过 图 2 框架可以看出,该框架在训练过程充分利用双目的有效信息作指导,同时测试过程也只需要单目图片进行输入,所以非常适合用于 2D 转 3D 技术的框架。

各种问题的解决

但在研发过程中,仍然存在一系列非常影响最终效果的问题,比如不同相机参数的模型预测、帧间抖动、物体边缘,以及背景存在模糊流动区域、物体空洞等,都是非常大的技术难题。

爱奇艺团队也分享了他们在技术落地应用过程中,工程难题的解决方案:

解决相机问题

在 Baseline 模型的基础上,如果直接使用混合的 3D 电影数据集进行训练,模型将无法收敛或预测不稳定,一个最主要的问题是不同电影使用不同相机参数的摄像机进行拍摄,即使两个非常相似的电影场景,在不同的两部电影中也会有不同的景深分布,表现在模型训练中即为不同的视差值。

与此同时,不同电影的后处理方式,以及会聚相机的引入,会进一步增加建模的难度。在分析相似案例的处理方法中,研究者发现可以通过引入条件变分自编码器(CVAE),在训练过程中把每一组训练集(左右视图)通过网络提取其相机参数等信息,并作为后验信息通过 AdaIN 的形式引入到单目(左视图)视差图预测中,同时参考《Toward Multimodal Image-to-Image Translation》中的「双轮训练」,保证了测试时随机采样相机参数分布的正确性。

解决抖动问题

在解决数据集问题后,进行连续帧预测时,研究者发现存在预测不稳定及抖动的问题。

目前,在解决视频生成过程(尤其是连续帧深度图预测)抖动问题的方案中,最为常见的方案包含基于帧间 ConvLSTM 的 [7] 和 [8] 和基于光流的 [9] 和 [10]。

其中,[8] 在不同尺度的编码和解码的过程中均加入 ConvLSTM,隐式的利用时间域上特征的相关性来稳定的预测深度图,而 [7] 则仅在网络输出的最后一层引入 ConvLSTM。

引入 ConvLSTM 的方法虽然思路简单,但在 2D 转 3D 模型中却不适用,[8] 使用了较多的 ConvLSTM,使得训练较为复杂,不易收敛,[7] 由于电影分镜镜头种类多变,单一 ConvLSTM 预测时易累计误差,使得预测变差。

图 3:vid2vid 结构图。

研究者提出的 2D 转 3D 模型采用了类似于 [10] 的模型结构,如图 3 所示,将左侧上支路改为输入三帧左视图(t,t-1,t-2),左侧下支路改为输入前两帧预测视差图(t-1,t-2),右上支路为输出当前帧所预测的视差图,右下支路改为输出前一帧预测视差图到当前帧预测视差图的光流图(t-1→t)及其 valid mask 图,最终结合右侧上下两支路结果合成当前帧视差图。

其中,在中间高维特征合并处引入上文提及的 CVAE 模块,用以引入后验相机参数信息。最终,在解决相机参数导致数据集问题的同时,模型能够得到稳定且连续的视差图输出。

解决「空洞」填补问题

新视角的生成会使部分原本被遮挡的区域在新视角中显露出来,这些信息仅从左视图中是无法获取的,即使通过前后帧的光流信息也很难还原,因此会形成一些空洞。

图源:CVPR 2020 论文《3D Photography using Context-aware Layered Depth Inpainting》,地址:https://arxiv.org/pdf/2004.04727.pdf。

在生成新视角的后处理过程中,研究人员参考了 ICCV 2019 的一篇图像修复论文中提到的模型框架设计,通过视差图来指导获取产生的「空洞」区域,通过图像修补技术解决新视角的「空洞」问题。

3D 效果测评由于拍摄条件不同会导致 3D 效果不同,所以在 2D 转 3D 效果测评中,研究者用大量人力对预测的视差图和成片在 VR 中的 3D 效果进行综合性的评测。视差图估计如图 4:

图 4:各种场景下的单目视差估计。

上文所展示的 3D 海报就是这一技术的直接应用场景,比如下图这一张就是在 2D 海报的基础上加上其深度关系图,通过一系列的新视点渲染,即可得到一组动态的、人能感知的立体影像。

《复仇者联盟 4》3D 海报。

此外,模型效果的评测也是难点之一。评价 3D 效果的呈现好与坏,很多时候是一个主观问题。在模型多次迭代的过程中,模型转制后影片收到效果评价并不统一,所以很难去衡量模型迭代该朝着哪个方向走。最终,经过长时间的探索以及与其他部门的磨合,团队从零搭建了一套详细且较为科学的 3D 影片效果评价体系,从更统计、科学的角度来评价模型效果,这在后期模型优化的过程起到了非常重要的指导作用。

2D 转 3D 的未来想象

目前,利用该技术转制的 3D 海报内容已经在部分用户的爱奇艺 APP 端进行灰度测试,随后将在各终端的 APP 中呈现。

3D 海报 Demo:《流浪地球》。

除了 3D 海报的展示形式之外,爱奇艺 VR 频道也已经上线了《四海鲸骑》、《灵域》、《万古仙穹》等多部转制 3D 剧集。未来该模型也会应用在更多的内容上,让用户获得更好的观影体验。

参考文献:
[1]Xie J, Girshick R, Farhadi A. Deep3d: Fully automatic 2d-to-3d video conversionwith deep convolutional neural networks[C]//European Conference on ComputerVision. Springer, Cham, 2016: 842-857.
[2]Garg R, BG V K, Carneiro G, et al. Unsupervised cnn for single view depthestimation: Geometry to the rescue[C]//European Conference on Computer Vision.Springer, Cham, 2016: 740-756.
[3] Godard C, Mac Aodha O, Brostow G J. Unsupervisedmonocular depth estimation with left-right consistency[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 2017: 270-279.
[4] Zhou T, Brown M, Snavely N, et al. Unsupervised learningof depth and ego-motion from video[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2017: 1851-1858.
[5] Huang X, Belongie S. Arbitrary style transfer inreal-time with adaptive instance normalization[C]//Proceedings of the IEEEInternational Conference on Computer Vision. 2017: 1501-1510.
[6] Zhu J Y, Zhang R, Pathak D, et al. Toward multimodal image-to-imagetranslation[C]//Advances in neural information processing systems. 2017:465-476.
[7] Zhang H, Shen C, Li Y, et al. Exploitingtemporal consistency for real-time video depth estimation[C]//Proceedings ofthe IEEE International Conference on Computer Vision. 2019: 1725-1734.
[8] Tananaev D, Zhou H, Ummenhofer B, et al. TemporallyConsistent Depth Estimation in Videos with RecurrentArchitectures[C]//Proceedings of the European Conference on Computer Vision(ECCV). 2018: 0-0.
[9] Lin J, Gan C, Han S. Tsm: Temporal shift module forefficient video understanding[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 7083-7093.
[10] Wang T C, Liu M Y, Zhu J Y, et al. Video-to-videosynthesis[J]. arXiv preprint arXiv:1808.06601, 2018.
[11]Yu J, Lin Z, Yang J, et al. Free-form imageinpainting with gated convolution[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 4471-4480.
参考链接:https://mp.weixin.qq.com/s/CpK0b5buUvG_HqF3mGzUyg

工程爱奇艺3D重建
相关数据
Tinghui Zhou人物

加州大学伯克利分校电气工程与计算机科学系博士。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

爱奇艺机构

2010年4月22日正式上线,推崇品质、青春、时尚的品牌内涵如今已深入人心,网罗了全球广大的年轻用户群体,积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。

http://iQIYI.COM
模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

图像修复技术

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

单目深度估计技术

单目深度估计是指从单张RGB图像中估计深度。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

暂无评论
暂无评论~