专访深度学习元老:这个实验室如何孕育DeepMind?

举世瞩目的人机围棋大战已战罢两番棋,人工智能应用Alpha Go两胜李世石,引发公众对于人工智能潜力的热烈讨论。「机器可以像人一样学习吗?」「人工智能会超越人类的智力吗?」为回答这些问题,InfoQ专访了瑞士人工智能实验室IDSIA的科学主任Jürgen Schmidhuber教授。

2016-03-11-1

Jürgen Schmidhuber 教授是深度学习领域的元老级专家,毕业于慕尼黑工业大学,现在是瑞士人工智能实验室(IDSIA)主任。他在15岁就希望能开发一种比它聪明并且能够自我完善的人工智能,然后他就可以退休了。从1987年开始,他引领了自我完善的通用问题解决方案的研究,又在1991年引领了深度学习神经网络的研究,其团队的卷积神经网络研究成为首个赢得官方国际大赛的项目。该技术对手写识别、语音识别、机器翻译、图像捕捉等诸多领域带来革命性的创新,如今该技术在谷歌、微软、IBM、百度等互联网公司的产品被广泛使用,惠及数以亿计的用户。

而如今「网红」的DeepMind公司也与该实验室有渊远,DeepMind创始初期四人中的两人以及他们招募的第一个人工智能博士都来自Jürgen Schmidhuberwei的这个实验室。Jürgen Schmidhuberwei的团队在多个领域创造了第一,比如其「Deep Learners 」是第一个赢得物体识别和图像分割竞赛冠军,也创造了世界首个超常视觉分类成绩,在9项国际性的机器学习和模式识别领域获得冠军。

InfoQ: 什么是深度学习,它的历史情况是怎么样的?

Schmidhuber:这是旧帽子的新标签。主要就是有许多(而不仅仅是几个)后续处理阶段的深度神经网络。随着今天计算机速度越来越快,这类网络已经彻底革新了模式识别和机器学习。Dechter在1986年首次把「深度学习」引入机器学习,Aizenberg等人在2000年将其引入人工神经网络 (NNs)。 乌克兰数学家Ivakhnenko是深度学习之父。他 (与Lapa) 在1965年发表了第一个针对监督深度前馈多层感知的通用、可行的学习算法。在1971年,他已经描述过八层的神经网络,以目前的标准来看依旧很深,其使用的训练方法仍流行于新千年。他远远领先于自己的时代——当时,电脑比现在慢十亿倍。

InfoQ:你对《科学》上的《 Human-level concept learning through probabilistic program》(有关人类级别的概念学习)这篇文章怎么看?论文通过贝叶斯程序学习 (BPL)框架实现了「看一眼就会(one-shot learning)」。

Schmidhuber:那篇论文很有趣。不过,人们也可以用标准迁移学习来实现,首先用不同视觉训练集「慢慢」训练深度神经网络,如此以来,前10层就变成一个相当通用的视觉预处理器,然后冻结那10层,并且仅新图像上的高学习率重新训练第十一层顶层。多年来,这个方法一直很管用。

InfoQ: 你如何比较贝叶斯方法和深度学习方法?哪个更可行?为什么?

Schmidhuber:我之前(现为教授)的博士后学生 Marcus Hutter,用AIXI模型 (2002) 展现了最优化(ultimate optimal)的贝叶斯研究方法。任何计算问题都可以用一个回报函数的最大值来表述。AIXI模型基于Solomonoff的通用混合值M,其中包括所有可计算的概率分布。如果世界对一些强化学习代理行为的反应概率是可计算的 (还没有反对证明),那么,该代理或许能使用M (而不是真实却未知的概率分布),预测自己未来的感官(sensory)输入和奖励。该代理的确可以通过选择那些最大化M预测奖励值的行为顺序,优化行为。这或许可以被称为无敌、终极的人工智能的统计研究方法——它证实了什么才是可能在数学上的极限。然而,AIXI的优化概念忽略了计算时间,这就是为什么我们仍与通用性较差但更具实践可能性的方法打交道,比如,基于更加有限的本地搜索技术 (比如梯度下降)的深度学习。

InfoQ: 上述《科学》论文把结果描述为「通过了视觉图灵测试」。半个多世纪前提出的图灵测试,至今还有效吗?

Schmidhuber:我的聊天伙伴感觉上像是人类吗?(如果是),它已经通过了我个人的图灵测试。正如Weizenbaum几十年前的看法,主观性是这个测试的核心问题。有些人比别人更容易上当。

InfoQ: 你怎么看待谷歌在《自然》发表的关于AlphaGo程序击败职业棋手的论文?AlphaGo是不是这个领域的一大突破?帮助它成功的因素是什么?

Schmidhuber:我为谷歌DeepMind的成功感到高兴,同时也因为这家公司在很大程度上受我以前的学生影响:DeepMind的头四个成员中有两个来自IDSIA,他们的第一个人工智能领域的博士雇员也来自IDSIA,其中一个是联合创始人,另一个是公司的第一名员工;我的其他博士学生也稍后加入了DeepMind,其中包括我们在2010年Atari-Go上发布论文的联合作者。 围棋是棋盘游戏,所以马尔科夫假设 (Markov assumption)成立:原则上来说,当前的输入 (棋盘的状态) 传达了决定最佳下一步所需要的全部信息 (无需考虑历史状态)。也就是说,可以用传统的强化学习 (RL) 解决比赛,这有点像20多年前, 那时,Tesauro在IBM使用RL跟一位相当于人类世界冠军(1994)的西洋双陆琪玩家从头学起。然而,在今天,我们在很大程度上受益于这一事实:计算机每美元至少快一万倍。在过去几年内,自动围棋选手进步得很快。在向好围棋手学习时,DeepMind的系统结合了多种传统方法,例如监督学习 (从人类专家) 和基于蒙特卡洛树搜索的RL。在不久将来,观看电脑系统对战顶尖人类围棋手,会非常有意思。 然而,不幸的是,马尔科夫假设在真实世界场景里无法成立。这也是为什么现实世界的游戏,例如橄榄球比国际象棋或围棋更难,针对 生活在部分可观测环境中的RL机器人的强人工智能 (AGI) 将需要更成熟的学习算法,例如,递归神经网络 (recurrent neural networks)的RL。

InfoQ:最近,谷歌DeepMind宣布进军医疗保健市场。你怎么看?

Schmidhuber:我们对深度学习在医疗保健方面的应用非常感兴趣。事实上,2012年的时候我们在IDSIA(第一作者为Dan Ciresan)的团队为了赢得医学成像的比赛,第一次引入了深度学习。我很高兴看到现在许多公司在医学成像和类似的应用上使用深度学习。全世界超过 10% 的GDP都被用在了医疗保健上(每年超过7万亿美元),其中昂贵的专家的医疗诊断占到了很大部分。这方面的部分自动化不仅可以节约数十亿美元,还能将专家诊断推广到现在还无力负担的人。在这种背景下,医学最有价值的资产应该就是它们的数据——这就是IBM要耗资十亿美元收集这些数据的原因。

InfoQ:你怎么看待IBM新的沃森物联网平台?人工智能在物联网领域有怎样的潜力?「AI即服务(AI as a service)」会成为人工智能一个有前景的趋势吗?

Schmidhuber:物联网(IoT: Internet of Things)将会远远大于人联网(IoH: Internet of Humans),因为机器将远多于人类。而许多机器确实会向其它机器提供「AI即服务」。广告让IoH有利可图;然而IoT的商业模式看起来就没那么明显了。

InfoQ:有些人说,未来与无监督学习有关,你认同吗?

Schmidhuber:我得说即使过去也是关于无监督学习的,它涉及到在没有老师的观察中检测规律性,它本质上是关于自适应的数据压缩(adaptive data compression),例如通过预测性编码(predictive coding)实现。四分之一个世纪前,我在这个主题上发表了我的第一篇论文——事实上在1991年这导致了第一个能用的「非常深度的学习者(very deep learner)」的诞生,它可以处理数百个后续计算层。

InfoQ:机器可以像人类一样学习吗?

Schmidhuber:现在还不能,但可能很快了。也可参看这个关于「学习去思考(learning to think)」的报道:无监督数据压缩(正如前面提到过的)是基于RNN的自适应代理的核心成分,该代理可以利用基于RNN的predictive world model来更好地规划和实现目标。1990年,我们首次就这方面的研究发表文章,自那以后,我们也已取得了很大的进步。

InfoQ:人工智能有局限吗( a limit of artificial intelligence)?

Schmidhuber:这个局限本质上就是1985年由理论计算机科学(1931年)的创始人库尔德·哥德尔确定出的可计算的局限。哥德尔说明传统数学要么在特定算法感知上存在缺陷,要么包含了无法通过计算程序证明的真实陈述(true statement)——无论人类还是人工智能都无法证明。

InfoQ:在你眼中,人类与机器之间的完美分工是怎样的?

Schmidhuber:人类完全不应该做辛苦而枯燥的工作,计算机来做。

InfoQ:你因在递归神经网络(RNN),尤其是长短期记忆(LSTM)上的开创性成果而声名远播,这种技术现已在深度学习中得到了广泛的应用。你可以给我们简短说明一下LSTM的背景和技术吗?你认为LSTM最适合哪些领域?有什么现实世界的案例吗?

Schmidhuber:监督LSTM RNN是通用目的的计算机,可以学习处理视频和语音等各种序列任务的并行序列程序。自90年代早期以来,它们已在我的实验室中被一些优秀的博士生和博士后开发出来,其中包括Sepp Hochreiter、Felix Gers、Alex Graves、Santi Fernandez、Faustino Gomez、Daan Wierstra、Justin Bayer等人。部分LSTM RNN的设计让反向传播的错误既不消失也不爆发,而是以一种「文明的」方式通过几千甚至更多个步骤倒流回去。因此,LSTM的变体版本可以从之前不可学习的「Very Deep Learning」任务中进行学习,这些任务要求发现(和记忆)发生在数千个离散时间步骤之前的事件的重要性;而之前的标准RNN在最短10步时间延迟的情况下已经失败。它甚至可能演化出很好的针对特定问题的LSTM一样的拓扑结构。 大约2007年的时候,我们的CTC(2006年)训练的LSTM开始革新语音识别,性能表现超越了键盘识别任务中传统方法。谷歌后来也用LSTM以帮助改进现有的技术,包括图像字幕(2014年)、机器翻译(2014年)、文本到语音合成(2015年,现在可在谷歌Android上使用)、自然语言处理的句法分析(2015年)等其它许多应用。2015年,CTC训练的LSTM极大地改善了Google Voice(49%)——现在有超过10亿智能手机用户可以使用它。微软和IBM和其它著名公司也在大量使用LSTM。

InfoQ:你的团队赢得了九次国际模式识别大赛,举一两个例子,例如手写识别和交通标志识别。你们是怎么办到的?

Schmidhuber:我的团队确实为多次赢得比赛而感到自豪,其中包括:

  • MICCAI 2013有丝分裂检测挑战赛

  • ICPR 2012乳腺癌组织学图片有丝分裂检测大赛

  • ISBI 2012脑图像分割挑战赛

  • IJCNN 2011交通标志识别大赛

  • ICDAR 2011离线中国书法大赛

  • 在线德国交通标志识别大赛

  • ICDAR 2009阿拉伯语连接手写大赛

  • ICDAR 2009波斯语/阿拉伯语手写字符识别大赛

  • ICDAR 2009法语连接手写大赛

我们团队又是如何做到的?通过创新、执着、拼搏和奉献。

InfoQ:你也在very deep nets上做出了特殊的重要性,不是吗?

Schmidhuber:既然深度意味着计算力和效率,我们从一开始就关注着very deep neural nets。比如说,1990年代早期,当其他人还受限于少于10个后续计算层的相当浅的网络时,我们的方法已经可以启用超过1000个这样的计算层了。我得说,我们就是将神经网络做得非常深的人,尤其是递归网络——它们中最深最强大的网络。当时,很少有研究者对此感兴趣,但我们坚持了下来,随着计算力越来越便宜,通过这样的方法赢得比赛只是时间问题。我很高兴看到其它深度学习实验室和公司现在也大量使用我们的算法。

InfoQ:上面的比赛是关于模式识别的——对于强化学习(reinforcement learning)和无师自通序贯决策(sequential decision)的更加通用的领域,你推荐什么方法?

Schmidhuber:我们喜欢我们的压缩网络研究,它超越了单纯的模式识别,发现了权重值为一百万的复杂神经控制器,并且(在2012年)成为了第一种依靠强化学习直接从高维度感官输入学会控制策略的方法。如果想了解更多,可查看前面提到的关于「学会思考(learning to think)」的报告。

InfoQ: 对于深度学习和人工智能,你最近的研究兴趣是什么?

Schmidhuber:我最近的研究兴趣仍然是我早在20世纪80年代阐述过的那些:「开发出比我更聪明的人工智能,这样我就可以退休了。」这需要的不仅仅是普通的深度学习。它需要自我指涉通用目的的学习算法,这种算法不仅改善给定领域某些系统性能,还改善它们学习的方式,以及它们学习方式的方式,等等,仅受限于可计算性的根本局限性。从1987年将这个问题作为学位论文选题以来,我一直在研究这个包罗万象的内容,但是现在我能看到这个主题正开始变成一个可能实现的现实。 

InfoQ: 自从去年作为一家深度学习创业公司启动以来,NNAISENSE 已经受到关注。你是这家公司掌门人,能和我们多谈谈 NNAISENSE 吗?对于这次新冒险,你的计划是什么?

2016-03-11-2

Schmidhuber:NNAISENSE 的发音像「nascence」,因为它与孕育一个通用目的的以神经网络为基础的人工智能( NNAI )有关。公司有5位联合创始人,几位雇员,非常强的研究团队,收益来自正在工业和金融(以及与投资人交谈)领域进行的最先进的应用。我们相信,我们能实现巨大的实践性突破,这一突破将改变一切,与上世纪80年代的老座右铭相符:「开发出比我更聪明的人工智能,这样我就可以退休了。」

InfoQ: 在不久的将来,人工智能产业的发展前景是什么?哪些领域会冒出杀手级 apps ?会有瓶颈吗?

Schmidhuber: 在 reddit 的 AMA 上,我指出,机器学习和神经网络算法将在许多领域(从医疗诊断到更加智能的电话)取得许多重要的超人般的成绩,更好理解和解决你的许多难题,并且让你更依赖它们。我推测我们正在见证这一领域爆炸式发展的点火阶段。但是,如何从内部预测爆炸时细节?假定计算能力以每十年100欧元的速度继续变得便宜,到了2036年,同等价位的计算机将比如今快10,000倍。这听上去多少有点像一个小巧的便携式设备拥有了人的脑力,或者像更大的计算机拥有了城市那么大的大脑能力。 鉴于这种尚未成熟的计算能力,我预期(以今天的标准)在专用硬件上运行的巨大RNNs能同时从许多资料来源中感知和分析海量的多模态数据流(语音、文本、视频和许多其它模态),学会关联所有这些输入,并且使用提取出的信息实现无数的商业和非商业目标。递归神经网络将持续快速地在已知的基础上学习新技能。这里应该有无数的应用,虽然我甚至不确定「应用」这个词在这里是否仍有意义。

InfoQ: 那么,下一步是什么?

Schmidhuber:孩子甚至某些小动物仍然比最好的自我学习(self-learning)机器人聪明得多。但是,我相信,在不那么多年之内,我们就能搭建起基于NN的人工智能(NNAI),逐渐学会和小动物一样聪明,以非常通用的方式学会规划、推理以及将各种各样问题快速分解成可以解决(或已经解决)的子问题。通过关于乐趣的形式理论(formal theory of fun),甚至有可能让机器具有好奇心和创造力,打造出无监督式的人工科学家。

InfoQ:一旦我们实现动物水平的人工智能,将发生什么?

Schmidhuber:迈向人类水平的人工智能的下一步可能不会那么巨大:大自然花了数十亿年时间演化出智能动物,在此基础上,只花了数百万年演化出人类。技术进化远比生物进化快速地多。也就是说,一旦我们实现动物水平的人工智能,几年或数十年以后,我们或许就能实现人类水平的人工智能,将有真正无限多的应用,而且每个行业都将改变,整个文明都将改变,一切都将改变。

InfoQ:人工智能的长远未来是什么?

Schmidhuber:超级聪明的人工智能或许不久将殖民太阳系,然后在数百万年内殖民整个银河系。宇宙想要让它迈出通往越来越深不可测复杂性的下一步。


入门人工智能深度学习Deepmind