Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Manoj Kumar等作者杜伟 路编译

谷歌大脑提出基于流的视频预测模型,可产生高质量随机预测结果

近日,来自谷歌大脑和伊利诺伊大学香槟分校的研究者在 arXiv 上发表论文,提出了一种基于流的视频预测模型 VideoFlow,可以直接优化数据似然,还能够产生高质量的随机预测。


计算机硬件能力的飞速发展以及研究者在更深刻见解和更好方法方面所做出的不懈努力,推动机器学习领域从相对冷门上升至主流。该领域的进展已经转化为各类能力的进步,如图像分类(Krizhevsky等人,2012年)、机器翻译(Vaswani等人,2017年)以及超人游戏智能体(Mnih等人,2013年;Silver等人,2017年)等。但是,机器学习技术的运用在很大程度上受限于需要大量监督的情况(如图像分类机器翻译任务),或者学习智能体需要对环境的高度精确模拟(如游戏智能体)。监督学习的一种不错的替代方法是:使用大型无标注数据集,并结合预测生成模型。复杂的生成模型若想有效地预测未来事件,则必须建构世界的内部表征。例如,一个能够预测未来视频帧的预测生成模型需要建模现实世界中的复杂现象,如物理交互。这为构建充分理解现实世界的模型提供了一种不错的机制,且无需任何标注样本。关于现实世界互动的视频非常丰富且容易获得,大型生成模型可以在包含许多视频序列的大型无标注数据集上训练,以了解现实世界中各种各样的现象。此类模型对后续下游任务中的表征学习非常有用(Mathieu等人,2016年),甚至可直接用在预测未来的应用中进行有效的决策和控制,如机器人学(Finn等人,2016年)。视频预测所面临的一个核心挑战是,未来具备高度不确定性:对当前时段的短序列观察可表示未来的诸多可能。近期已经有大量研究涉及可表征不确定未来的概率模型,但这些模型要么计算成本极其昂贵(如像素级自回归模型),要么无法直接优化数据似然。

这篇论文研究随机预测问题,主要关注条件式视频预测:基于较短序列的以往观察结果合成原始RGB视频帧(Ranzato等人,2014年;Srivastava等人,2015年;Vondrick等人,2015年;Xingjian等人,2015年;Boots等人,2014年)。具体而言,研究者提出了一种新型视频预测模型,它能够提供确切似然,生成各类随机未来,还能精确合成逼真、高质量的视频帧。该方法背后的主要思路是:将基于流的生成模型(Dinh等人,2014和2016年)扩展到条件式视频预测环境中。基于变分自编码器和像素级自回归模型的方法已被用于研究随机预测生成,但基于流的模型受到的关注相对较少。据称,基于流的模型目前仅用于图像等非时态数据和音频序列的生成。条件式视频生成面临着独有的挑战:视频序列的高维度特性使其难以建模为单独的数据点。因此,谷歌大脑的研究者学习了一种潜在动态系统(latent dynamical system)模型,用于预测流模型潜在状态的未来值。这为该系统的潜在状态引入了马尔科夫动力学,替代了标准的无条件先验分布。受到图像生成模型 Glow 的启发,研究者创建了一种基于流的视频预测实用模型架构 VideoFlow。

实证结果表明,在 action-free BAIR 数据集上执行随机视频预测时,VideoFlow所取得的效果与当前最优结果不相上下,其定量结果也能够与最佳的VAE模型相媲美。VideoFlow还可以输出不错的定性结果,避免了很多使用像素级均方误差训练的模型输出结果中常见的伪影(如模糊预测),并且也不会面临与训练对抗模型相关的挑战。与基于像素级自回归预测的模型相比,VideoFlow在测试阶段的图像合成速度有很大提升,这使得VideoFlow对于机器人控制等需要实时预测的应用更加实用。最后,VideoFlow能够直接优化训练视频的似然,且不依赖变分下界,因而我们可以从似然值的角度直接评估其性能。

论文:VideoFlow: A Flow-Based Generative Model for Video

论文链接:https://arxiv.org/pdf/1903.01434.pdf

摘要:原则上,能够建模和预测未来事件序列的生成模型可以学习捕获现实世界中的复杂现象,如物理交互。尤其是,学习视频预测模型可以提供一个特别不错的机制,以充分理解物质世界:现实交互的视频非常丰富且容易获得。能够预测未来视频帧的模型不仅可以捕获世界的有用表征,还能够独立处理基于模型的机器人控制等问题。但是,视频预测所面临的的核心挑战是,未来具有高度不确定性:之前观察事件序列可表示未来的诸多可能。近期已经有大量研究涉及可表征不确定未来的概率模型,但这些模型要么计算成本极其高昂(如像素级自回归模型),要么无法直接优化数据似然(data likelihood)。谷歌大脑的这项新研究提出基于归一化流的视频预测模型,该模型不仅可以直接优化数据似然,而且能够产生高质量的随机预测。据称,该研究首次提出了基于归一化流的多帧视频预测。研究者介绍了一种建模潜在空间动态的方法,并展示该基于流的生成模型为视频生成建模提供了一种可行且有竞争力的方法。

提出的架构

该研究提出视频生成流,扩展了近期提出的 Glow(Kingma & Dhariwal,2018年)和RealNVP(Dinh等人,2016年)架构。
图 1:流模型通过多个层次的随机变量采用多尺度架构。在不同的层次上,输入流经K个流并输出随机变量,然后进入下一组流。最后一组流的输出为最终的随机变量。

图2: 每一个时间步 x_t 的输入被编码成多层次的随机变量 。研究者通过序列进程对这些随机变量建模

定量实验

研究者在Stochastic Movement Dataset (Babaeizadeh et al., 2017) 和 BAIR robot pushing dataset (Ebert et al., 2017) 上评估了VideoFlow的性能,还对模型中的关键组件进行了模型简化测试,以量化这些组件的效果。最后,研究者对VideoFlow与当前最优的随机视频生成基线模型进行定量对比。VideoFlow模型的超参数见该论文补充材料。
表 1:研究者报告了在10个目标帧和3个条件帧(conditioning frame)上的平均每像素比特数(bits-per-pixel,BPP),所用数据集为BAIR action-free dataset。
图 4:B:基线模型,A:时间跳过连接(Temporal Skip Connection),C:扩张卷积+GATU,D:扩张卷积+时间跳过连接,E:扩张卷积+时间跳过连接+GATU。研究者为VideoFlow模型的不同简化模型测试绘制了在BAIR action-free 数据集上的holdout BPP。
图 5:对于BAIR action-free数据集中给定的一组条件帧,研究者为每一个随机视频生成模型抽取100个视频样本。研究者基于PSNR、SSIM和VGG感知度量选择最接近真值的视频。所有模型使用10个目标帧进行训练,但测试时需生成27帧。
图6:对于一段给定的测试视频,研究人员利用VideoFlow模型检测时间异常,从而计算第t个目标帧X_t属于P(X_4 = X_t|X<4) (t = 4 . . . 13) 的似然。研究者在测试集上对相应的BPP取平均,并绘制误差线。

定性实验

研究者基于两个数据集潜在空间中的输入帧和插值生成视频,并展示了定性结果。定性结果可在https://sites.google.com/corp/ view/videoflow/home 中查看。在生成视频中,蓝色边框表示条件帧,红色边框表示生成帧。

温度的影响

图 7:研究者分别在温度0.1、0.5和1.0的情况下生成视频。上图展示了,在每一种温度下未来不同时间步中的生成帧。

更长期的预测
图 8:研究者在温度0.5的情况下生成了未来100帧。上下两行分别对应无遮挡和有遮挡情况下的生成视频。
图 9:研究者对训练进程和生成视频的质量进行了对比。(视频质量以测试集上的平均BPP值为度量标准)

潜在空间插值
图 10:研究者展示了 a)小蓝矩形和大黄矩形;b)小蓝圆圈和大黄圆圈之间的插值
图 11:研究者展示了BAIR robot pushing dataset中两个测试视频的首个输入帧和最后目标帧之间的插值

复现代码

复现实验结果可用代码可在公开的 Tensor2Tensor repo中获取:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/video/next_frame_glow.py

理论谷歌大脑流模型视频合成
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

推荐文章
暂无评论
暂无评论~