MIT生成视频模型,预测静态图片的未来场景

MIT 创造出了一种基于静态图片生成视频的系统,下面的文章对该系统进行了技术讲解,读者可点击这里下载此论文。

视频生成

下面是我们的模型生成的一些视频。这些视频不是真的,是由生成式视频模型幻化出的。尽管不是真实的,但里面的动作看起来在所属的分类中是合理的。

Synced (7).gif

条件式视频生成(Conditional Video Generations)


通过训练模型生成未来行为,我们也能使用模型为静态图片增加动画。当然,未来行为是不确定的,所以模型很少生成「正确的」未来,但我们认为这种预测有一定的合理性。下面是几个输入与输出的对比(左边输入,右边输出):

更多的视频生成结果可通过阅读论文、浏览论文讲解原文了解。原文地址:http://web.mit.edu/vondrick/tinyvideo/  。


视频表征学习(Video Representation Learning)


生成视频的学习模型也可能成为学习表征的一种方式。例如,我们能在大型无标记视频库上训练生成器,然后在小型标记数据集上微调判别器,从而在较小的监督情况下识别一些行为。我们给出了模型在 UCF 101 上的准确率,并与其它面向视频的无监督学习方法进行了对比:

ucf.png

对未来进行预测时,我们也能可视化表征中的内容。同时不是所有的单元都是语义上的,我们发现有一些隐藏单元瞄准了用作运动来源的目标。因此,生成未来行为需要理解运动的目标,该网络可能在内部学习识别这些目标,即使不是通过监督的方式进行的。

person_golf.jpg

面向人的隐藏单元

tracks_train.jpg

面向火车轨迹的隐藏单元

上面的图像强调了一个特定的卷积隐藏单元触发的区域。


简要技术综述


我们的方法建立在使用生成式对抗网络的生成式图像模型的基础上,我们将其应用到了视频中。背后的基本思路是将两个深度网络相互对比。一个网络(生成器)试图生成合成视频,另一网络(判别器)试图将合成视频与真实视频进行判别。训练出的生成器要能骗过判别器。

在生成器上,我们使用深度卷积网络输入低维随机噪音,输出视频。为了建模视频,我们使用时空上的(spatiotemporal) up-convolutions 网络(2D 空间,1D 时间)。生成器也独立于前景对背景进行建模,网络产生一个静态背景(随时间被复制),也生成一个移动的前景(前景同时也使用了一个 mask)。下图我们对此进行了展示:

network.png

我们同时训练一个判别器网络区别真假视频。我们使用深度时空卷积网络作为判别器,如下图:

4.JPG

我们从 Flicker 上下载了两年内的视频,同时通过场景分类对其进行了稳固与自动过滤,然后用它进行训练。

为了预测未来行为,可以将一个编码器附属到生成器上,如下图:

Synced (279).jpg

失败和限制


对抗学习(adversarial learning)难以做到正确,我们的模型有如下一些有限的地方:

  • 可以明显的区别生成的视频与真实视频。生成的视频有着相当低的分辨率:64×64,32帧。

  • 评估生成式模型很难,我们使用一个心理物理学 2AFC 测试在 Mechanical Turk 上问工作人员哪个视频更真实。我们认为该评估还可以,但社区内选定稳健的自动评估标准更加重要。

  • 为了更好的生成视频,我们通过场景分类自动过滤掉了一些事,并为每个分类单独训练一个模型。我们在最初的几帧上使用 PlacesCNN 获取视频的场景分类。

  • 未来的推测并不总是很好的匹配第一帧,之所以这样可能是因为瓶颈太大。


  • 论文:生成带有场景动态的视频(Generating Videos with Scene Dynamics

摘要:我们利用大量无标记视频学习视频识别任务(例如,行为分类)和视频生成任务(例如,未来行为预测)中的场景动态。我们提出一个面向视频的生成式对抗网络,该网络带有一个时空卷积架构(spatio-temporal convolutional architecture ),能从背景中整理出场景的前景。实验表明,该模型能瞬间生成在全帧率上优于简单基准的小视频。而且它还能用于预测静态图片的合理未来。此外,实验和可视化结果显示该模型能在内部学习有用的特征,在较小监督情况下识别动作,这表明场景动态是表征学习的一个有效信号。我们相信生成式视频模型能影响视频理解和视频模拟中的许多应用。

入门图像识别MIT计算机视觉工程视频