揭秘谷歌Deep Dream的前世今生

编者按:今年6月,谷歌推出了一款图像识别工具Deep Dream,这个工具是在人工神经网络算法的基础上,将人类输入的图像转化为机器识别的图像,由于画风诡异,也迅速在社交媒体上得到传播。本文作者深入到Deep Dream研发团队,去探寻这个产品诞生前后的故事。

1在2015年5月18日的凌晨,Alexander Mordvintsev从一个噩梦中惊醒,他后来在采访中如此向我形容。或者,至少那是一个令人深深困扰的梦,一个入侵者穿过了他位于苏黎世公寓的门口,他和他怀孕的妻子、三岁的儿子已经在那个公寓里住了几个月。这个俄罗斯的计算机科学家于去年的十一月在谷歌工程中心得到了一个工作,他们于是从圣彼得堡搬到了瑞士。

Mordvinstev被噩梦惊醒的时候正是深夜,他从床上窜起来冲去检查门口。它完好地关着,一切都很安静。但他的思绪早已无法平静下来。「现在是凌晨两点,而我睡不着,」他对自己说道。那么是时候写些代码了。 这是个最终带来了无数幻妙神奇的图像的决定,从外星人的角度去看,激发观者的思绪,也扭曲着观者的思绪。一个揭开了人工神经网络——这个我们未来可能的霸主——真正的力量。这个决定也改变了Mordvinstev的人生。

2015-12-26-1他继续了年初就开始的工作。Mordvinstev为神经网络(Neural Nets)所着迷,后者是一种计算机模拟以理解大脑的神经丛连接。复杂的人工神经网络现在可以进行「深度学习」,是当前最热门也是最具有前景的发展。他摆弄着他自己研发的视觉神经网络,后者利用开源工具所研发。这些工具在过去几年中出现,是计算机视觉系统证明有效(在此之前其他功能都被认为是难以达到的)后随之而来的科技大爆炸的一部分。

而这些都与Mordvinstev的职责无关。谷歌是NNs领域内的领导者,它将诸如Geoffery Hinton在内的前沿研究者囊括在自己旗下;Jeff Dean是一位传奇的谷歌计算机科学家,他所领导的团队在加州山景城团队研发了NN,即非正式版的谷歌大脑(Google Brain);谷歌DeepMind在伦敦的收购推进了机器智能的前沿。Mordvinstev与他们并没有直接关系。他在Safe Research工作,预防垃圾邮件与色情内容感染搜索结果。但是谷歌仍旧允许它的工程师抽出时间花在他们喜欢的东西上。对于Mordvinstev来说,那意味着神经网络与视觉系统,也是他之前对于在生物系统中运用计算机建立模型的兴趣的延伸。在早几年,他曾经捣鼓过珊瑚礁的模型(如下图)。

2015-12-26

作为NN的新手,Mordvinstev自己进行学习,阅读文献,操作已经训练好的系统去识别确定的目标。神经网络和深度学习是如何服从的秘密激起了他的兴趣:它们为什么运行得如此好,它们的内部又是怎么回事?许多人也问过同样的问题,利用卷积神经网络从不同切入点来探索视觉识别系统。 卷积神经网络是一种用于视觉识别的特殊形式。他们不仅仅只用神经式学习系统来实践生物模仿,而且还采用了与光感应细胞在视觉皮层中分布相似的方式布置神经元。

Mordvinstev希望继续这条路,只不过要采取一个邪恶的转折方式:他正在写代码,希望让神经网络创造一些有意义的图像,一些本不存在,至少没有人说过的图像——机器创造的视觉,在系统里正渗透着神经网络的隐喻。在这个看起来无休无止的五月的晚上,他的妻子与孩子正在沉睡,他所写出的代码改变了整个神经网络的目标。他告诉自己,来找找能够提升活化载体活性的东西吧。就像,无论它在这一堆图片里看到了什么,都让它再多些。

换句话说,他会将神经网络的功能由识别存在的东西跳转为创造不存在的东西。在网络试图确认它识别出了可能的目标对象的模式的过程中间,他告诉网络直接跳过并「继续」,继而开始制作目标。在此之前,卷积神经网络的任务为进行防御驱动式,意味着筛除错误的弯折,并确保精确的预测。Mordvinstev的处理可堪速度与激情式,就好像用枪逼迫着这个系统往前冲,然后猝然踩下刹车并调转方向。你甚至可以感受到它在数字化的沥青车道上旋转腾移时飞溅出来犹如砾石般的像素化碎片,系统紧紧抓住目标的痕迹,勇莽地将它们全部消化为栩栩如生的目标图像。 其中的把戏就是让系统去做自己的事情——撤销自己的结论,接着回顾自己的结论去找出新图像的模版——就在正确的时间,用正确的方法。「写代码很容易,但是找到正确的参数就不是了。」Mordvinstev说道。计算机代码中能够真正将神经网络变成能够创造图像的东西的那一部分,实际上仅仅只有三十几行代码。但是这一次,Mordvinstev掌握好了其中的平衡。

成果来得很迅速。他所用来建造自己的神经网络的开源工具是基于知名的ImageNet数据库所训练,能够识别1000个种类包括了118个狗的品种。他输入一张图片:一只小猎犬与小猫,都栖息在草地上的树桩上(他在一个数字墙纸网站上发现的)。正常来讲,人们会用一个视觉识别神经网络来确定它所看见的东西。但是Mordvinstev希望来点不一样的东西。他的代码可以为神经元处理增加中间过程,为不是那么明显的线索变得更加清晰,并用以更好地识别狗。为修正过的图片重复识别途径,他最终得到了一个非常诡异的结果。

从广义上来说,这是一张狗的图像。有点吓人,因为这实际上是那只猫咪的身形,而不是那只猎犬(但也许不是那么令人惊讶,鉴于网络的训练主要以狗的品类为主)。这只野兽的前额上有着第二双眼睛。臀部下面有着另一双眼睛与口鼻。实际上,这些狗的特征出现在了一些诡异的地方。

总结一下,这只动物的皮毛下面正发生着可怕的感染,看起来下一秒就要变异了。如果你看的更近些,在粉红色的下巴下面还有另一双眼睛。鉴于更好测量,图片的背景是绿色的墙,有着奇怪的花纹,就像阿兹科特人用手涂抹的表面。在墙上的几个地方,看起来像蜘蛛的东西若隐若现,有点像蜘蛛弹孔。

2015-12-26 2015-12-26

Mordvinstev于凌晨两点钟根据第一张图猫咪所进行的实验产生了第二章图片的野兽。

我们不需要太针对它,但是这幅图实在像一个精神不太正常的人画的,并且这个人可能还服用了些LSD。但是它的来源,当然了,不是精神病人或神经病者。它们是算法。

因此,Mordvinstev本来不同意公布任何结果。2今年的早些时候,他曾经讲述过一些他的理论,并且得到了一些全球谷歌研究群岛的一些科学家们的兴趣。但是这一次,他终于自信地在Google Plus内部版本中发布了一些图片,包括了扭曲的狗脸,只对内部人员开放。 他上传的时间是凌晨2:32。「我不太确定在凌晨两点的时候进行DNN图像增强是不是一个好主意。」他写道,「这下我可怎么睡觉呢。」 尽管在苏黎世这时是凌晨,但在山景城已经是周一的早晨了(实际上谷歌的工程研究中心根本没有日落这一说)。仅仅在他上传几秒之后,一场雪崩爆发了,随之而来的还有无数「+1」。 回复:「我的眼睛!我的眼睛啊!!」

Mordvinstev的上传为谷歌社区引起哗然大波,收到了162个「+1」还有超过60个评论,这对于一个Safe Search的普通工程员来说实在有些不平常。有两个工程师尤其受到了震动。

其中一个在Jeff Dean所领导的精英深度学习团队中工作,Chris Olah,时年22岁。他获得过风投资本家Peter Thiel创立的「20位20岁以下」奖学金,后者为有天赋的年轻人资助100000美元完成大学学业,并有所建树。另外,由Mordvinstev的Tech Talk所引发,他对于三维打印以及编程语言中的邪教Haskell十分有兴趣,并为他的上传结果所震惊。 「我对于识别图像的卷积神经网络十分感兴趣,并了解它们是如何运行的。」他说道。在Google Plus的上传后,Olah从他的队长那里拿到了在项目内工作的允许。

共同加入Mordvinstev后援团的还有Mike Tyka。一位生物化学家,后来转向计算机科学,研究蛋白质折叠的模拟,现在工作于谷歌西雅图办公室的机器学习团队。他也是一位活跃的艺术家,用铜与玻璃塑造雕像,同样也是由蛋白质折叠的工作所激发。他所在的团队曾经以魔方为模型做出了35英尺高的塑像。Tyka近期也陷入了对神经网络的热恋,并认为Mordvinstev的作品是艺术与科学之间的对话。「如果你仔细想一想人类的创造力,其中的一小部分就是采取人们的印象,并以有趣且出乎意料的方式来重组它们。」他说道,「看着计算机可以想出人们想不到的神奇事物,非常酷。」 Tyka开始了为系统输入不同图像的实验,反复着Mordvinstev建议的方法。Tyka由此创造了一个图像的画廊,神经网络可以改变任意图片的每一个像素。

群山变成了宝塔。树叶变成了鸟。甚至背景也会出现复杂的设计图案,就像神经网络习得了古伊斯兰教中的几何建筑图案。

最疯狂的图像来自于神经网络所理解的蓝天白云的图片。它们与孩子们将云朵想象为动物与建筑的方式有着诡异的相似,神经网络作出了魔幻般的场景,不仅仅源自于云朵,甚至是纯净的天空中难以察觉的扰动。从人类无法察觉的图案,神经网络想象出了许多无法进行分类的生物。Tyka将其命名为:猪-蜗牛、骆驼-鱼以及狗-鸟。

Tyka继而更进一步:与其采用一个已经存在的图片,他更愿意用随机噪声开始,并持续为系统添加图像,直至系统可以找出识别对象的模式。「如果你从随机噪声开始,你的图像就能够纯粹体现神经网络所知道的。」与跟随着目标隐晦的模式并使其清晰,这些神经网络则更加自由。Tyka从提交这些初始噪声到得出惊奇的结果并没有花费很长时间:神经网络给出了想象出的奇光幻影般景象,就像Robert Grooms与Robert Grumb(皆为视觉艺术家)笔下的绿野仙踪。

我们都知道智能神经网络以计算为基础,没有「心智」。然而人们无法不将这些神奇的画作联想为神经网络的潜意识的一扇窗口。

不用说,这些结果将Mordvinstev最初的想法向前推进,通过他与他的新同事们所进行的更多的实验与更多的图像,神经网络工作的方式也更好地为人们所理解,他们开始着眼于神经网络是如何处理我们的世界。例如,当他们要求神经网络去创造有关杠铃的图像时,有些奇怪的事情发生了。

在此之前,研究员假设当神经网络识别一个杠铃时,它像人类一样去「看」——由金属所做成的真实目标。但其实是错的。在神经网络的「心智」当中,杠铃实际上是和人类的手与手腕连接在一起的一个物体。一张又一张手握住杠铃的照片,而这样的意识可以有助于训练NNs的未来。

Mordvinstev的工作引起了谷歌内的更多讨论,研究团队内的人们感觉这个项目应该被公之于众。Mordvinstev向Olah建议,后者也是一个活跃的博客作家,他们应该为此建立一个博客条目。

「也许真正合适的发布方式是做一堆实验,写一篇论文,然后在什么会议上去发表。」Mordvinstev说道,「但是实际上我觉得博客就是个很棒的方式,因为那样更快,更容易。」

Tyka也加入了,一开始帮助写些文字部分,然后为他的作品建立了一个画廊。 在他们的博客中,团队称他们的研究为盗梦家(Inceptionism),向早期谷歌研究卷积神经网络的论文的致敬,后者将其的名字根据克里斯托弗·诺兰所导演的一部电影所衍生网络梗将系统命名为盗梦空间(主演小李子:「我们需要再深些」)。他们形容其中一个Tyka根据天空所转化的图片为一个怪异的动物园。

这样便形成了一个反馈循环:如果一片云朵像一只鸟,神经网络就会让它更像一只鸟,并且因此会让神经网络在此之后对于鸟类的识别更加敏感,直至细节更加清楚的鸟出现了,看起来鸟就凭空出现了。

于是乎,三人组于六月17号在谷歌公开的研究博客上发布了杰作,然后,因特网疯狂了。仅仅几天之后,这些图片就迅速在上百篇文章里、无数的推特以及Facebook的分享中。机器学习的网站Subreddits、博客与各讨论版剖析了其作品的每一个方面。「神经网络」与「深度学习」这几个名词已经被讨论了数年,于所有人都是一个谜题,然而对于科学精神观察者来说则不是。而现在所出现的图像,无论是否具有代表性,提供了一种视觉的方式以进入这些晦涩的概念,就如同人工智能所绘制的自画像一般。3但是这仅仅是个开始。在七月一号,谷歌在GitHub发布了代码,让人们都可以自己进行图像创作。在这个过渡阶段,谷歌创造了这个Inception系统的研究员建议这个新的系统——鉴于它是一个另一种完全不同的努力——不会用相同的术语去困扰人们。因此这个项目也被叫做Deep Dream,结合了神经网络深度学习与系统所创造的梦境般超现实。

现在因特网真正疯狂了。 还有一些雨后春笋般的APP冒出来,让没有技术背景的人们也可以将他们喜欢的作品变成噩梦般的图像。很多人也进行了像Tyka的天空系列一样的微改变的实验,但是看起来最受欢迎的还是利用Deep Dream来作为马良神笔。AI的信息论坛,推特很快出现了deepdream标签,Pinteres立即推出了耶罗尼米斯·博斯(欧洲中世纪画家,图画复杂,有高度的原创性、想像力,并大量使用各式的象征 ,其中有些甚至在他的时代中也非常晦涩难解。博斯被认为是20世纪的超现实主义 的启发者之一。)的动物寓言版本。最风行的消遣方式就是将Deepdreaming用在总统参选人上面,当然大部分都是Trump,让他们看起来就像是在Ralph Steadman的《赌城风情画》中的笔记本撕下来的某页里。摇滚乐团Wilco推出的新专辑封面正是猫咪的deepdream版本,并在网站售卖20美元。不出所料,一些人们还试了下色情照片,结果自然是比人们想象得还要惨不忍睹(仅供NSKW链接)。Gizmodo(知名博客)的标题将其总结为:「谷歌的梦想机器人正狂野地感染整个互联网」。 一个新兴的Deep Dream社区出现了。它的拥护者之一便是Samim Winiger,一个有名的瑞士游戏开发员。「这是继分型理论之后的首个流行文化所生成的图像。」他在Skype视频时提到。Winiger也对此做出了自己的贡献,即一个可和Deep Dream软件共同创作动画的项目,与Roelof Pieter合作开发。他们最近利用它创作了电子流行乐团Year&Year的音乐视频。

「五年后,我们便不会知道Photoshop了。」Winiger说道。 反之,艺术家与插画家会用创作工具箱来让图像产生人力所不能及的真实度。他将其叫做「创作AI」。

2015-12-26-1 

但是Deep Dream的意义远超出了艺术的范围。为了理解为什么Mordvinstev的实验广义上非常重要,人们需要了解神经网络,以及深度学习是怎么回事。首先,要对神经网络进行一下定义。它们由栈层中的人工神经元组成:「深处」的网络有接近20个神经层。在视觉系统中,研究员会用不停地输入图像并修正输出训练NNs。当这些图像经过网络,每一个层都会进一步进行分析,整合所有它所看到的东西。在图像层层分析后,经过对于其猜测的精确度的反馈,网络会自己调整参数,以正确的鉴别不同的目标。最后的神经层,即输出层,可以熟练地决定它所知道的对象。

由于经过了几十年的进步,神经网络由无人问津变成了人工智能内最热手的领域。「深度学习」神经网络现在可以在常规识别图像,精确理解自然语言,甚至可以开始做一些以前只有人类可以做的工作。

但是我们还有很多需要补习的内容。到今天,这项工作最注重于结果;而NN内部进行比重和参数的决定与调整仍然是一个黑匣子一般的存在。它真的有用吗? 想要清楚神经网络的内部工作有些困难,并且理解它们怎样像真正的大脑一样工作或者哪部分与大脑不同更加困难。但是即使我们知道了它们很有用处,还需要知道它们是如何做到的,并在下一代中提升。

这就是Deep Dream项目的作用所在,例如研究员希望通过实验找出在检测随机图片的增强模式中哪些神经层更加活跃。如果他们选择了底层中的一个——让系统作出图像内容的初始假设——他们会得到复杂的模式,因为神经网络这时正在分析目标的边缘部分,而没有进行分类。另一种实验则是针对更高层,让系统即兴去决定所识别的物体,这正是古怪的动物开始出现的时候。当输出变得更加有趣,我们也就理解了更多NNs运行的方式。

但是Mordvinstev实验在另一方面也非常重要:他指出了神经网络有着巨大的潜能。当这些神经网络继续发展,他们注定不会局限于某些领域内人类所具有的能力,而是超越人类。例如卷积神经网络,看起来已经具有超越人类某些方面的前景。就像Deep Dream的实验所表现得,神经网络可以看见我们无法看见的东西。我们不仅仅在谈论一些脖子上长了一张猎犬的脸之类的事情,而是一些人类无法察觉的现象对于我们真正的意义。举个例子,科学家开始用神经网络在超声波扫描中检测癌症。他们还可以扫描数据来进行交通运输模式的预测。4在未来,神经网络将会加强或在某些领域替代人类,因为后者的局限性导致了无法胜任某些任务,比如TSA代理可以监视航班中的所有乘客。除了消除人类所有的缺陷,比如疲劳以及分神,神经网络也许还会演化为识别某些目标的微小特征(在行李中)以及乘客的行为举止模式,可以匹配甚至超越艾拉航空的所采用的审讯方式。

这些都是其功利性的延伸:还有哲学上的意义。探索智能神经网络是一种整合知觉的独特方法。当卷积神经被设计为模仿一个生物作用过程,我们知道计算机系统里所发生的实际上与我们自身完全不同。因此这里有一个值得探索的价值所在,基本上来说,也就是一个感知的替代方法。举一个早期的例子,Mike Tyka指出NN实际上把杠铃定义为连接着手的某种物体。从特定角度看,这种误知令人惊异。

当然了,鉴于举重者的图片源源不绝,机器会趋于相信人类拿着杠铃的手也是刚杠铃的一部分。但是这也是探入非人类智能内部的火光——并且也许甚至是我们反省自己看待杠铃的方式。这句话并不是康德附身,但是难道不是人类的手放在杠铃上的时候,它才成为了杠铃吗? 也许最让人困恼的问题不是NN与人类大脑的区别,而是其相似性。我们的直觉告诉我们这些计算机的作品最多只能媲美人类复杂的表达。但是随之而来的谷歌之外另一个神经网络的实验挑战了这个想法:一个神经网络可以在要求下改变图像,就像历史中最伟大的艺术家创造的它。

它来自于德国图宾根大学的三位研究员,一位博士候选人在Bethge实验室中与计算机和神经科学团队一起工作,理解生物与计算接视觉系统。他们利用神经网络识别并最终输出了与目标完全相反的图案,当他们的实验出现了一个诡异的曲折时——神经网络创造性地改变图像,就像一个艺术家一样会有可能吗?神经网络能够有艺术史学家一样的分析技能来理解图画吗?它能够像一个高明的仿造者将香草画得如同著名艺术家笔下的一样吗?为了如此,他们必训练神经网络以分开内容的风格,并且准确识别这种风格,以至于神经网络可以自己进行复制并完成这样的作品。

「能否有这些独立的变量因子还很不确定。」Gatys说道。但是在艺术作品中的目标与同一物体未被艺术感染的拍摄相片之间的区别上针对于神经网络训练之后——他们能够奇迹般的作出一些早已逝去的大艺术家们所做出的杰作。

他们在论文里展示了「艺术风格的神经算法」的证据,例如吸取著名的蒙克的《尖叫》的艺术风格,康定斯基的《构成第七号》,或梵高的《星空》,然后在系统内运行与图画实际内容相符的照片。结果惊异地与画作相似。

这篇论文在九月初在互联网引起了轩然大波。当开源软件在此不久后登陆时,一个图像社区在继Deep Dreams之后又经历了一场狂欢,当然也请你继续欣赏Deep Dream的杰作:

2015-12-26-4 The author, rendered by Pikazo.2015-12-26-52015-12-26-32015-12-26-2

其中一个积极的参与者是Karl Stiefvater,他是一个计算机图像专家(他写的代码足以让黑客帝国里Neo的飞船爆炸;近期他为Linden实验室写关键图像代码)。他的iOS应用,Pikazo,提供了一些人们无法触及的资源吸取来的绘画风格:例如,其中一个选择是电路板风格。Stiefvater指出,它无法立刻转换,因为它需要四千万亿次浮点运算。

德国实验的成功——以及可以让你的家庭照片变成克里姆林宫里挂着的油画的应用——引起了巨大的问题。我们眼见德国研究员创造了一个可以以艺术家风格绘画的智能大脑。但是人工神经网络并不是大脑。但是它们可以像大脑一样学习,并且以相似的方式观看世界。那么我们可以研究这些网络来研究康定斯基的大脑吗? 「这是个完全不同的东西。」Gatys说道,「我们处理图像显示。但这里并没有任何智能代理存在。理解康定斯基的大脑,并知道他为什么要画这些东西很困难。」 Stiefvater觉得分解这个最激进的天才最终还是个数学问题。「我喜欢艺术创造,但是我并不相信创造是超自然的。它是一个机理,一个认知工作。」2015-12-26-6从Mordvinstev与他的同事上传博客的时刻,人们被某一种事物所撼动,并对于人工与生物神经网络的潜在的深度联系产生了疑问。这正是Deep Dream与LSD或毒蘑菇所激发的人类的幻觉(服用了化学剂的Hunter S. Thompson)之间令人惊异的某种关联。深度学习神经网络与大脑之间有相同的方面吗?一些研究员认为有。「谷歌的图片就像是你在迷幻或经历幻觉中出现的想象,这说得通。」Karl Friston是伦敦大学学院的神经科学教授,他如此对记者Sophie Weiner说道。

总体来说,尽管Google表现得支持这个项目,它看起来在发布的文字中有所克制,因为公司里还有许多其他AI上的突破,只不过没有这些炫目图片来哗众而已(谷歌之外的一个有名的研究员形容Deep Dream为「一个漂亮的把戏」)它花费了我数周去得到公司的允许以进行对团队的采访。 当然了,当我这样做的时候,我问他们 为何将deepdream的图片——以Chambers Brothers浮夸的语言来说——看为是迷幻化的。 他们并没有避开这些问题。「我们的神经网络与我们自己的大脑之间有着深层联系。」Tyka指出,「因此生物大脑中所发生的相似的事情对于我并不惊讶。我是说,如果你将生物系统中的视觉刺激然后与突触信号和神经元混淆,那么你就会有些误解与扭曲。因此我认为这里是有着相似性,并且你可以认为神经网络的研究实际上帮助我们更好地理解生物神经网络。」 Mordvinstev也同意这一点:「对于我,它也是我们走在构建计算机视觉系统正确道路上的强烈信号。因为它们看起来有着相似的缺陷。」

这是一个震撼的概念。它能够是幻觉中的人们与深度学习神经网络同时基于相似的视觉刺激而产生的视觉经历的暗示吗?两个系统是不是打开了同一扇感知的大门?这些系统又能够教我们如何了解自己吗? 这些问题正是Deep Dream为何——即使一些人认为它是个把戏——如此重要。这些图像的揭露能够引导我们面对神经网络和深度学习正融入生活中所带来的许多问题。

无论Deep Dream所带来的结果如何,它已经改变了三人组的人生。Alex Mordvinstev不再工作于Safe Search;他现在是Jeff Deam团队中的一员。Chris Olah的实习期结束了,现在是AI研究团队的一位Googler。Mike Tyka现在正用部分时间来探索艺术家如何利用机器智能来创造艺术。

在我进行采访的时候,就在这个博客发布的几个月后,三人组实际上从来没有真正见过面——只有Olah与我在一个屋子里,剩下两个人都通过Hangout远程视频。因此我只能与Olah合照,两个屏幕上则是Mordvinstev和Tyka的脸,一个在苏黎世,一个在西雅图。 之后,我很好奇神经网络会如何理解这个照片。取决于参数,它也许可以精确地通过名字识别三个人,并正确的推测出在谷歌内的一个会议室内。实际上,Google Photos,就在Mordvinstev的发现几天之前所发布,利用深度学习来处理这样的人物,一天几千次。 但是也许,如果特定的智能神经元能够运行,机器也许会从工程师的袖子那盯出来有着獠牙的狗。谁又能说谁的视觉更真实呢?

本文选自Medium,机器之心编译出品,参与成员:Chen

入门
暂无评论
暂无评论~
返回顶部