CoolBoy、魏子敏作者

斯坦福最新:用GAN补全镜头外的世界

被誉为最有想象力生成对抗网络GAN一出现就被Yann Lecun誉为“十年来机器学习领域最有趣的想法”,在图像领域更是催生了一批有趣的研究。

今天文摘菌介绍的这个研究来自斯坦福大学,用GAN的“想象力”补全一张图片镜头外的世界。

还不太了解GAN的同学,让我们先来简单复习一下:

如果你想更加擅长某种东西,比如下棋,你会怎么做?你可能会和比你更强的对手对弈。你会分析你做错了什么、对方做对了什么,并思考下一场比赛如何才能击败他(她)。

你会重复这一步骤,直到你击败对手。这个概念可以被纳入到构建更好的模型中。所以简单来说,要获得一个强大的英雄(即生成器generator),我们需要一个更强大的对手(即鉴别器discriminator)。

这就是生成对抗网络GAN的基本原理

GAN被广泛用于了图片风格变换和补全的各种研究中,比如之前万圣节mit发布的恐怖片专题页“噩梦机器”,就是通过GAN实现的。

基于GAN的神奇效用,这一补全图片的研究成果可以将一张m x n大小的图片,补全成m x(n+2k)大小的图片。

这个模型的训练使用了36500张256 x 256 RGB的图片。只是目前这一补全还很受限制,只能基于原图片为中心扩展。当然,并且对图片风格也有一定要求,必须是写实风格的图片。

海滩图片及训练结果👇

迭代回归绘画👇

这一研究来自斯坦福大学两位同学CS230深度学习的课程作业,未来,两位同学希望可以将这一补全能力从图片扩展到视频上。

可以通过下边这页poster简单了解👇

研究成果可以通过其在github的链接查看👇

https://github.com/bendangnuksung/Image-OutPainting

斯坦福两位同学采取的方法是基于一项早稻田大学的研究。来自早稻田大学的三位老师提出了一种局部和全局一致的图像补全方法。在使用卷积神经网络,填充任意形状的缺失区域来补全图像后,使用全局和局部的情景鉴别器来区分真实图像和被补全图像。图像补全网络与鉴别器网络分别被训练后,再利用GAN损失函数统一训练。

与PatchMatch等基于补丁的方法相比,这个的方法可以生成图像中未出现的片段,能够自然地完成具有高度特定的结构(如面部)的图像。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

工程GAN
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

推荐文章
暂无评论
暂无评论~