GAN初创者另有其人?IanGoodfellow:只是纯策略版本

众所周知,生成对抗网络(GAN)是由Ian Goodfellow 于2014年提出的。但是,一篇reddit热帖披露早在2010年OlliNiemitalo即提出了同样的概念。Goodfellow回应道:没有提到随机 z 向量,只是纯策略版本。

GAN深度学习领域非常火爆的研究主题,大家普遍认为它最早是由Ian Goodfellow 于2014年提出的。当然,也存在异议,比如 LSTM 之父 Jurgen Schmidhuber 就认为 GAN 是其1992年提出的PM模型的变体,甚至在 NIPS 2016会议上与 Ian Goodfellow 直接互怼,引发了热议。

而今天,reddit上一个热门帖子又将「GAN是由谁首创」这个话题引爆,这篇帖子披露2010年即有人提出了GAN,与2014年Goodfellow提出的GAN思想几乎没有差别。这到底是怎么回事呢?

我们先从Olli Niemitalo 2010年2月发布的一篇帖子说起。

2010 年 OlliNiemitalo 提出的思想

Olli Niemitalo目前居住在芬兰赫尔辛基,主要研究信号/图像/视频处理,他在Signal Processing Stack Exchange问答网站上回答了大量问题。

个人主页:http://yehar.com/blog/

2010年,他发布了一篇帖子,提出了一种新思想:

这里介绍一种训练神经网络来生成可变上下文缺失数据的方法。这种方法很难用一句话讲清楚,所以下面我将举个例子: 

一张图像中可能会有缺失的像素(例如有污渍)。那么在知道周围像素的情况下,该如何修复污渍下的缺失像素呢?一种方法是用“生成器”神经网络,该网络将缺失像素周围的像素作为输入,生成缺失的像素。

但如何训练这样的网络呢?不要期待该网络能够准确生成缺失的像素。假设缺失的数据是一片草地,你可以让网络学习一堆缺失了一部分的草坪图像。你知道缺失的数据,然后可以根据生成草地和原始数据之间的均方根误差(RMSD)给网络打分。

问题是,如果生成器遇到的图像不属于训练集,那神经网络就不可能把所有的叶子(尤其是图像块中间的叶子)准确地放在缺失位置。最低RMSD误差可能通过网络用纯色填补图像块的中间区域来实现,该纯色取的是典型草地图像中像素颜色的平均值。如果网络生成的草地能够骗过人类,那它就达到了目的,而RMSD度量将会有一个不幸的惩罚。

我的想法如下图所示:与生成器同时训练一个分类器网络,以随机或交替顺序向该网络输入生成数据和原始数据。然后,分类器根据周围图像的语境猜测该输入是原始数据 (1) 或生成数据 (0)。同时,生成器网络尝试从分类器中获得高分 (1)。

希望的结果是,这两个网络开始都比较简单,然后朝着生成和识别越来越高级的特征发展,最后接近甚至超越人类辨别生成数据和原始数据的能力。如果每个分数考虑多个训练样本,则*应使用RMSD作为误差度量*,因为这将鼓励分类器网络输出概率。

Olli提出的架构图

2014年IanGoodfellow提出的GAN思想

2014年,IanGoodfellow等人发布论文,提出了新型生成对抗网络GAN,它受启发于博弈论零和博弈的思想,包含两个模块:判别模型生成模型,二者不断博弈,使生成器学习数据分布。

Goodfellow提出的GAN架构图

其中,生成器(Generator)通过随机噪声z生成伪造图像。这些伪造图像会和真实图像混在一起,并希望判别器(Discriminator)判断每张图片是不是真实的。如果最后判别器无法区分两种图像,那么生成器就能达到以假乱真的效果。

生成器和判别器构成一个动态的博弈过程,其最终平衡点就是纳什均衡点。

Jurgen Schmidhuber 和 Ian Goodfellow关于GAN的争论

GAN对深度学习领域的影响很大,各种不同的变体也层出不穷,有研究者创建了GAN Zoo,收集了数百个不同GAN。

GAN Zoo:https://github.com/hindupuravinash/the-gan-zoo

大家普遍认为GAN是由IanGoodfellow提出的,而德国计算机科学家、LSTM之父JurgenSchmidhuber表示异议。

巧合的是,GAN这篇原始论文最初投递NIPS大会时,Jurgen Schmidhuber正是审稿人之一,并给出了拒稿意见。他认为GAN是他1992年提出的Predictability Minimization(PM)模型的变体,PM模型才是第一个对抗网络,GAN和PM的主要区别仅在于方向相反。

之后,二人进行过一系列邮件讨论,然而似乎并没有取得一致。2016年,在NIPS 2016大会的GAN Tutorial上,Ian Goodfellow进行了一场演讲,而Jurgen Schmidhuber在演讲现场提问「PM模型与GAN是否有相似之处」。

Ian Goodfellow对此的态度是否定的,他认为GAN并没有借用PM的思想。

PM模型架构(图源:https://zhuanlan.zhihu.com/p/27159510)

Olli Niemitalo对此事的评价

在NIPS 2016上JurgenSchmidhuber与Ian Goodfellow就GAN的话题直接互怼后,Olli Niemitalo也做出了评价:

我在2010年的一篇博客中发表了关于GAN的基本概念。我当时没有在网络上搜索到任何相似的东西,我也没有时间去实现它。我当时而且现在也不是神经网络领域的研究者,我的专业和该领域无关。

我2000年开始考虑使用神经网络上采样(重新采样到更高的采样频率)的数字音频生成缺失的高频,以令人信服而不是准确的方式。2001年我收集了音频库进行训练,以下是从2006年1月20日开始的EFNet#musicdsp Internet Relay Chat(IRC)日志的一部分,其中我 (yehar) 与另一个用户 (_Beta) 讨论了这个想法:

2006年至2010年间的某个时候,朋友邀请了一名专家来看我提出的概念并与我展开讨论。他们觉得这个想法很有趣,但认为当一个网络可以完成这项工作时,训练两个网络不太划算。

我一直没有确定他们是否理解了核心思想,还是说立即找到了一种方法将其形式化为单个网络。也许使用拓扑结构中的瓶颈将其一分为二了。

当时我甚至不知道反向传播仍是实际在用的训练方法(我在2015年制作Deep Dream视频时才了解到)。这些年来,我和多名数据科学家以及其他可能对此感兴趣的人讨论了我的想法,但反应平平。

2017年5月,我看到了Ian Goodfellow在NIPS 2016 GAN Tutorial上的演讲视频,这让我非常开心。他的基本思想与我的一样,而且他做了艰苦的研究,实现了很好的结果。该演讲回答了我的很多疑问。

当评审者向作者施加压力,要求其引用自己的研究时,这是一种利益冲突。


Ian Goodfellow回应与网友观点

在Olli这件事引发热议之后,IanGoodfellow表达了自己的看法:

他们似乎没有正确地理解GAN的概念。这篇文章中没有提到随机 z 向量,所以这只是GAN理论的「纯策略」版本。你需要 z 才能使“混合策略”起作用,因为有纳什均衡。另外,这篇文章最后说RMSD是正确的度量标准。

众多网友在Reddit上也热议纷纷,主流观点仍支持Ian。

网友MasterSama的观点得到了最多支持:

Olli像其他很多人一样走在了时代的前面,这些人因为各种原因没有得到认可。历史上,乃至我们日常生活中也有很多这样的例子。总之,我很感激 Ian推广了这个概念。也许他不是第一个想到这个想法的人,但是如今他以这个闻名。这有什么问题吗?事实上,他提出概念并实际致力于使其取得成果才是最重要的。

对于他的评论,以下几个网友用各种观点表示了支持。

@whymauri:

是的,我同意这种观点。我在大学数学课上学到的第一个东西是斯蒂格勒定律(又称名字命名法则)。该法则认为“没有科学发现是以其最先发现者的名字而命名的”。事实上,斯蒂格勒定律最初是由社会学家罗伯特·默顿提出的,而不是斯蒂格勒。

@antisnb:

这更是一个教训,让我们认识到只有想法是无法转化为影响力的。想法本身并不会转化为什么有价值的东西,除非你努力发展它。

@BoiaDeh:

我觉得这更像是时机不对。有时候想法很棒,但它比能够实现它的技术领先十年。

@mikolchon: 

在这个例子中,就算作者付出了努力,我怀疑以2010年的硬件水平来看,也未必能实现什么。 

不知道大家怎么看?欢迎留言讨论~

参考链接:

  • https://web.archive.org/web/20120312111546/http://yehar.com:80/blog/?p=167

  • https://stats.stackexchange.com/questions/251460/were-generative-adversarial-networks-introduced-by-j%C3%BCrgen-schmidhuber/301280#301280

  • https://www.reddit.com/r/MachineLearning/comments/bnqm0p/d_gans_were_invented_in_2010/

理论Ian GoodfellowGAN
相关数据
Ian Goodfellow人物

Ian Goodfellow 是机器学习领域备受关注的年轻学者之一,他在本科与硕士就读于斯坦福大学,师从吴恩达,博士阶段则跟随蒙特利尔大学的著名学者Yoshua Bengio研究机器学习。Goodfellow 最引人注目的成就是在2014年6月提出了生成对抗网络(GAN)。这一技术近年来已成为机器学习界最火热的讨论话题,特别是在最近几个月里,与GAN有关的论文不断涌现。GAN已成为众多学者的研究方向。

纳什均衡技术

纳什平衡,又称为非合作赛局博弈,是在非合作博弈状况下的一个概念解,在博弈论中有重要地位,以约翰·纳什命名。 如果某情况下无一参与者可以通过独自行动而增加收益,则此策略组合被称为纳什均衡点。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

判别模型技术

在机器学习领域,有一种分类方法将模型分为判别模型和生成模型(generative model)两种。 判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,是一种基于概率理论的方法。已知输入变量x,判别模型通过构建条件概率P(y|x)分布预测结果,或试图直接从输入x的空间学习映射到标签{0,1}(如感知器算法)的函数。生成模型则是考虑x与y之间的联合分布。 在实际应用中判别模型非常常见,如:逻辑回归(logistic regression),支持向量机(support vector machine), 提升方法(Boosting),条件随机场(conditional random fields),神经网络(neural network),随机森林(random forests)典型的生成模型则包括:高斯混合模型(Gaussian Mixture Model),隐马尔科夫模型(hidden markov model),简单贝叶斯(naive Bayes)等。不难看出两者的区别。

零和博弈技术

零和博弈,又称零和游戏或零和赛局,与非零和博弈相对,是博弈论的一个概念,属非合作博弈。零和博弈表示所有博弈方的利益之和为零或一个常数,即一方有所得,其他方必有所失。在零和博弈中,博弈各方是不合作的。非零和博弈表示在不同策略组合下各博弈方的得益之和是不确定的变量,故又称之为变和博弈。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

均方根误差技术

平方平均数(Quadratic mean),简称方均根(Root Mean Square,缩写为 RMS),是2次方的广义平均数的表达式,也可叫做2次幂平均数。常用于计算误差

博弈论技术

博弈论,又译为对策论,或者赛局理论,应用数学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

推荐文章
暂无评论
暂无评论~