DeepMind最新论文:视频像素网络(VPN)

Synced (107).jpg

摘要

我们提出了一种概率视频模型——视频像素网络(VPN:Video Pixel Network)——其可以评估一个视频中原始像素值的离散型联合分布(discrete joint distribution)。该模型和神经架构视频张量(video tensors)的时间、空间和颜色结构,并能将其编码成一个四维的依赖链(dependency chain)。该 VPN 已经在 Moving MNIST 基准上逼近了最佳可能的表现,其表现已经大幅超越了之前表现最佳的方法,而且其所生成的视频与 ground truth 只有轻微的偏差。该 VPN 还能在以动作为条件的 Robotic Pushing 基准上生成详细的样本并泛化到全新物体的运动上。

light-particles.jpg

图 1:VPN(左)和基准模型(右)的依赖图(上)和神经网络结构(下)

5 Moving MNIST

Synced (211).jpg

表 1:在 Moving MNIST 数据集上的 nats/frame 的交叉熵结果

Synced (198).jpg

表 2:在 Moving MNIST 数据集上的 nats/frame 的交叉熵结果

Synced (193).jpg

表 3:在 Robotic Pushing 数据集上的 nats/dimension 的负对数似然

5.2 结果

表 1 报告了多种最近的视频模型在 Moving MNIST 测试集上的结果。我们的基准模型实现了 110.1 nats/frame,这显著优于之前最佳的模型(Patraucean et al., 2015)。我们将这些增益归功于架构特性,尤其是该网络的分辨率保持方面。此外,该 VPN 实现了 87.6 nats/frame,这已经逼近了 86.3 nats/frame 的下限。

表 2 报告了 VPN 的架构变体的结果。带有扩张型卷积(dilated convolutions)的模型比非扩张型的同等模型表现更好,因为它可以更轻松地在 64 × 64 frames 中移动的相对大的数字上工作。在 Moving MNIST 的例子中,MU 并没有凭仅使用 ReLU 就实现显著的提升,这可能是因为该任务的复杂度相对较低。MU 在 Robotic Pushing(表 3)上实现了可观的提升。

对该模型所生成的视频延续(video continuations)的定性评估与定量评估是相匹配的。图 4 给出了该 VPN 和基准模型在 Moving MNIST 测试集上所生成的随机延续(random continuations)。由该 VPN 所生成的帧拥有一致的锐利度——即使当它们偏离 ground truth 时也是如此。

与此相反,由基准模型所生成的延续会随时间逐渐变模糊——因为模型的不确定性会随所生成的帧的数量而增长,帧间空间依赖(inter-frame spatial dependencies)的缺乏可能会使模型做出可能轨迹之外的预期。

Synced (161).jpg

图 4:从 Moving MNIST 测试集随机采样的视频延续。对于每组的三行,中间一行的前 10 帧是给出的背景帧(context frames)。后面的 10 帧从上至下依次为:基准模型生成的帧、VPN 生成的帧、ground truth 帧。


论文地址:Video Pixel Network

理论
暂无评论
暂无评论~
返回顶部