张浩天等作者魔王编译

让视频里的你完全消失,Adobe最新SOTA模型实现无痕修图,无需先验知识

用各种修图技术 P 掉图片里的指定内容往往很难不着痕迹,抹掉视频里的流动内容就更难了。但近日,Adobe 提出了一种基于 Deep Image Prior 的新型视频修图算法,可以同时修复缺失图像和移动(光流)信息,增强视频的时间和空间连贯性,使得去掉某些内容之后的视频依然自然、流畅,毫无修图痕迹。而且,该方法无需外部数据库,仅通过视频内部学习即可实现。

Adobe 提出的这种新型视频修图算法可以同时修复缺失图像和移动(光流)信息,基于 Deep Image Prior(DIP)提出。DIP 利用卷积网络架构来修复静止图像中的纹理。

论文链接:https://arxiv.org/abs/1909.07957v1

Adobe 的研究人员将 DIP 从静止图像扩展到视频领域,在此过程中他们做出了以下两大重要贡献:

  • 在没有先验训练的情况下,可以实现连贯的视频修复。研究人员采用生成方法进行视频修复,它基于内部(视频内数据)学习而不依赖外部视觉数据语料库,从而训练出适用于大量视频的通用模型;

  • 研究人员证明,此类框架可以同时生成图像外观和光流,同时利用这些互补模态保证彼此的连贯性。

研究者证明,利用每个视频的外观数据可以获得视觉合理的修复结果,同时还能处理长期连贯性这一难题。

研究贡献

该研究受 Deep Image Prior 的启发,提出一种基于内部学习的视频修复方法。DIP 最惊人的结果是:自然图像的「知识」可以通过卷积神经网络(CNN)进行编码,即 CNN 网络架构,而非实际的滤波器权重

CNN 的平移不变性使得 DIP 能够利用图像中视觉图案的内部循环(internal recurrence),该方式与基于图像块的经典方法 [19] 类似,但表达性更强。此外,DIP 无需外部数据集,因而其遭遇指数级数据问题的概率较小。研究者尝试将 DIP 方法扩展至视频修复领域,作为从外部数据集学习先验知识的替代方法。

该研究的核心贡献是:提出了首个基于内部学习的视频修复框架。该研究证明,基于视频内数据训练的逐帧生成式 CNN 也有可能输出高质量的视频修复结果。研究者研究了不同内部学习策略对解决视频修复时间连贯性问题的效果,开发出基于联合图像和光流预测的训练策略,该策略可以感知到视频连贯性。这一方法不仅使网络捕捉到短期运动连贯性,还能将该信息传播到不同帧,从而高效解决长期连贯性问题。

研究表明,该方法可以实现当前最优的视频修复结果。作为基于网络的框架,该方法可以纳入 CNN 学得的自然图像先验,以避免基于图像块方法中常出现的变形现象(见下图 1)。

图 1:「跑酷」场景的视频修复结果。

相比于基于帧的基线方法(第 2 行),Adobe 提出的内部学习视频修复框架的修复结果连贯性更强,即使是对于多个帧中看不到的内容(橙色框)。作为基于网络的合成框架,Adobe 提出的方法可以利用自然图像先验避免变形,而这在基于图像块的方法(如 [16],第 3 行)中经常出现(红色框)。

从 DIP 到基于内部学习的视频修复方法,经历了什么?

将 DIP 扩展至视频领域的一项重要挑战是确保时间连贯性:内容不应该出现视觉伪影,相邻帧之间应该展现出平滑的运动(光流)。这对视频修复而言难度尤其高,因为像素具备时间对应性才能生成缺失内容,而这种对应也可实现内容的时间流畅度。

Adobe 通过同时合成外观和运动打破了这个循环,它通过编码器-解码器网络生成内容,该网络不仅在视觉领域利用 DIP,同时也在运动方面利用了 DIP。这就可以同时解决外观修复和光流修复问题,保持二者之间的一致性。研究证明,同时预测外观和运动信息不仅能够提升空间-时间连贯性,还能更好地在较大空洞区域传播结构信息,从而提升视觉合理性。

基于内部学习的视频修复方法

视频修复的输入是视频序列

其中 T 表示视频中的帧数,M_i 表示每个帧 I_i 中已知区域的二元掩码(1 表示已知区域,0 表示未知区域),⊙ 表示逐元素乘积。令 I_i ^* 表示 I_i 的期望版本,其中的掩码区域已被合适内容填充。即视频修复的目标是基于 V bar 修复得到

研究者使用内部学习方法实现视频修复。这一通用方法是:利用 V bar 作为训练数据,基于对应的噪声图 N_i 学习得到生成神经网络 G_θ,然后生成每一个目标帧 I_i ^*。

图 2:该研究提出的视频修复框架图示。

给出每个独立帧的输入随机噪声 N_i,生成网络 G_θ可同时预测帧 I_i hat 和光流。G_θ 仅基于输入视频训练,不使用任何外部数据,并优化图像生成损失 L_r、感知损失 L_p、光流生成损失 L_f 和连贯性损失 L_c。

实验

研究者在之前研究所用的大量现实世界视频上对新方法进行了评估。为了促进量化评估,研究者创建了额外的数据集,该数据集中每个视频都有前景掩码和真值背景帧。

控制变量测试

研究者首先对比了不同内部学习方法的视频修复质量。具体而言,他们对比了其提出的最终方法 DIP-Vid-Flow,以及以下基线方法:

  • DIP:该基线方法直接将 DIP 框架逐帧应用于视频领域。

  • DIP-Vid:Adobe 提出的框架,不过该基线方法仅使用图像生成损失训练。

  • DIP-Vid-3DCN:除了直接使用 DIP 框架(具备纯 2D 卷积),研究者还修改了 DIP,使其使用 3D 卷积,并应用了图像生成损失。

下表 1 展示了不同方法的结果。从所有指标上来看,针对整个视频的方法明显优于逐帧的 DIP 方法。

表 1:控制变量测试。

下图 4 是一些视觉示例。DIP 通常从已知区域借取文本来填充空洞区域,以至于很多示例中出现结构不连贯现象。

图 4:不同内部学习框架的结果对比。逐帧的 DIP 方法倾向于从已知区域中借取纹理,生成不连贯的结构。

针对整个视频进行优化(DIP-Vid 和 DIP-Vid-3DCN)可以提升视觉质量,同时还能捕捉到时间连贯性(第 3、4 行的蓝色框)。Adobe 提出的连贯性损失(DIP-Vid-Flow)提升了长期时间连贯性。

下图 5 展示了不同视频修复方法在两个视频序列上的时间连贯性。

图 5:时间连贯性对比。研究者将来自所有视频帧的固定行像素堆叠起来(黄线)。Adobe 提出的完整模型(DIP-Vid-Flow)具备最流畅的时间变换。

视频修复性能

研究者对比了新方法和其他当前最优视频修复方法的性能,包括根据 Yu 等人提出的图像修复方法得到的视频修复结果、在视频修复数据上训练得到的 Vid2Vid 模型,以及分别来自 Newson 等人和 Huang 等人的两个当前最优视频修复方法。

下表 2 展示了这些方法在研究者提出的 Composed 数据集上的量化评估结果,度量指标为 PSNR 和 SSIM: 

表 2:量化评估。

下图 6 展示了不同方法的视频修复帧示例:

图 6:不同方法在 [16] 提供的视频(第 1 行)、[8] 提供的视频(第 2 行)和 Adobe 提出的 Composed 数据集(第 3 行)上的视频修复结果。相比于基于图像块的方法,Adobe 提出方法的生成结果更不容易出现变形。

理论光流Adobe视频修复
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

图像修复技术

推荐文章
暂无评论
暂无评论~