图灵奖的「张冠李戴」?Jürgen Schmidhuber援引200条文献,力证2018图灵奖颁错人了

在 ACM 将图灵奖授予「深度学习三巨头」之后,人们都在感叹「世界欠 Jürgen Schmidhuber 一个图灵奖」。时隔一年多,Schmidhuber 本人终于就此事做出了一个全面回应。在一篇最新的博客文章中,他引用了 200 多条文献来逐条反驳 ACM 给予「三巨头」的颁奖理由,认为他们给出的颁奖理由其实夸错了人。



让我们把时间倒回到 15 个月前。

2019 年 3 月,ACM 公布了 2018 年图灵奖的获奖结果:Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun 三位深度学习先驱获此奖项。图灵奖是美国计算机协会(ACM)于 1966 年设立的奖项,专门奖励对计算机事业作出重要贡献的个人,有「计算机界诺贝尔奖」之称。


当时,ACM 主席 Cherri M. Pancake 表示,「人工智能如今是整个科学界发展最快的领域之一,也是社会上讨论最广的主题之一。AI 的发展、人们对 AI 的兴趣,很大程度上是因为深度学习的近期进展,而 Bengio、Hinton 和 LeCun 为此奠定了重要基础。这些技术如今已被数十亿人使用。通过口袋中的手机,人们能够体验到 10 年前不可能体验的自然语言处理和计算机视觉技术。除了我们每天使用到的产品,深度学习的最新进展也为医疗、天文、材料科学等各个领域的科学家们带来了强大的新型工具。」「深度神经网络促进了现代计算机科学的极大进步,在解决计算机视觉、语音识别、自然语言处理、机器人学等领域中的长期问题方面取得了极大进展。」

这样的颁奖理由让 Schmidhuber 无法信服。他在文章中写道:

2018 年的图灵奖授予了深度学习领域的研究者,但 ACM 对于获奖者的称赞其实是基于其他研究者率先发表的算法和概念基础的研究,而获奖者并没有引用之前研究者的工作。ACM 明确提及了深度学习中 4 个领域的惊人突破:(A)语音识别,(B)自然语言处理,(C)机器人技术,(D)计算机视觉,以及新的强大的深度学习工具,涉及 3 个领域:医学、天文学、材料科学。但是,上述大多数突破和工具,都直接基于我们实验室过去三十年来的研究结果。

在 Schmidhuber 看来,ACM 对三巨头的肯定其实是一种「对深度学习历史的扭曲」。因此,他在这篇文章中予以纠正,指出获奖者被大量引用的工作其实忽略了之前的相关基础研究,这可能也是 ACM「张冠李戴」的原因。

以下是部分原文摘录:

Jürgen Schmidhuber:我为什么要这么做?


我们必须停止将原创者的创新成果归功于错误的人。Nature 杂志最近也呼吁:「Let 2020 be the year in which we value those who ensure that science is self-correcting」。就像了解我的人可以为我作证一样,找到并引用科技领域创新研究的最初来源对我来说非常重要,无论它们是我的还是其他人的。本文是为有同样见解的计算机科学家提供的资源。

我之所以这么做,并不是为了贬低创新成果推广者的重要贡献,而是以真正的原始来源为基础来肯定原创研究者。我的目标是鼓励整个社区的研究者在学术研究上更加有学术风度(scholarly),认识到在当代人工智能和机器学习的狂热中有时会遗漏一些基础研究工作,并且以或多或少的力量打击学术剽窃。

ACM 的「张冠李戴」


LeCun、Bengio、Hinton 三人(以下简称为 LBH)对人工神经网络和深度学习算法进行了有益的改进,ACM 称赞了他们在基础方法层面的显著成果,但他们三人没有引用这些方法的首创者,甚至在后来的研究中也没有标注。

我要纠正一下 ACM 对深度学习历史的曲解, I-XXI 部分可以找到大量的参考文献,这些参考文献的顺序与 ACM 颁奖词所列举的领域一一对应。

Sec. II:与 ACM 的说法相反,用于模式识别的神经网络的出现要远远早于 20 世纪 80 年代。

1965 年,Ivakhnenko & Lapa 就开始了基于多层感知机的深度学习研究,这是在 LBH 三人之前很久就开始的。但 LBH 从未在研究中引用过这些方法,甚至在最近的研究中也没有。

80 年代,基于梯度的「现代」学习方法仅适用于较浅层的神经网络,但 1991 年我的实验室让这种方法变「深」了。首先是通过神经网络无监督的预训练,然后是通过有监督的 LSTM。

Sec. I 包含 ABCD 四个深度学习领域的突破,但 ACM 没有提到的是,它们大部分是基于我们团队的技术:

Sec A 语音识别:第一个高级的端到端神经语音识别结合了我实验室的两种方法,LSTM(1990s-2005) 和 CTC(2006),2007 年应用于语音识别。

Hinton(2012)和 Bengio(XV)仍然在使用上世纪八九十年代的老式混合方法,Hinton 等人(2012)没有将其与我们革命性的 CTC-LSTM 方法(很快就出现在了大部分智能手机上)进行对比。

Sec B 自然语言处理:第一个高级的端到端的神经机器翻译模型(很快就被大型平台用于日均数十亿次翻译)也是基于我们的 LSTM。

Sec C 机器人技术:强化学习训练后的 LSTM 也是机器人技术和视频游戏中最显著最核心的突破。

Sec D 被卷积神经网络(CNN)颠覆的计算机视觉:基础的 CNN 架构是 Fukushima 在 1979 年奠定的。后来,Waibel 将 CNN 与反向传播和权值共享相结合,并应用于语音。所有这些都是在 LeCun 的 CNN 研究之前的。我们的研究两次表明(1991-95 和 2006-10),深度神经网络不需要无监督的预训练(这与 Hinton 的说法正好相反)。我们的团队(Ciresan 等)在 2011 年提出了够快、够深的 CNN 来适应高级的计算机视觉任务需求,并连续赢得了 4 个图像识别竞赛,这是在 Hinton 团队赢得 ImageNet 挑战赛之前。包括 ImageNet 2015 年冠军 ResNet 也是我们早期 Highway Net 的一个特例。


Sec XIV:ACM 再次认可了那些未引用前人成果的研究。

在 Hinton(2012)之前很久,Hanson 在 1990 年有一项研究是 dropout 的变体, v. d. Malsburg 在 1973 年就提出了线性整流神经元,但 Hinton 没有引用这些研究。早在 2011 年,我们的快速且深度的 CNN 在计算机视觉挑战赛中就已经将「目标识别的错误率降低了一半以上」,远远早于 Hinton(2012)。

Sec XI:ACM 提到的「GPU 加速的神经网络」其实是 Jung & Oh(2004)初创的,但 LBH 并没有引用他们的文章。

2010 年,我们的深度 GPU-NN 揭示了无监督的预训练方法(我在 1991 年提出,后来由 Hinton 提倡)。2011 年,我们的 GPU-CNN 最先赢得计算机视觉挑战赛(ACM 明确提到了这一点)。


Sec. XVIII:ACM 认为 LeCun 发展了卷积神经网络。然而,卷积神经网络的基础是由 Fukushima 和 Waibel 奠定的。

ACM 还明确提到了自动驾驶和医学图像分析。但第一支通过深度卷积神经网络赢得相关领域国际挑战赛的团队是我们(2011、2012、2013)。

Sec. VII:ACM 明确提到了医学和材料科学。我们的深度神经网络是第一个赢得医学影像挑战赛的(2012 年和 2013 年),也是第一个将深度神经网络应用于工业材料缺陷检测的(自 2010 年以来)。

当代反向传播最初是由 Linnainmaa 在 1970 年发表的,而不是 LeCun、Hinton 或者他们的同事(1985)提出的,但是他们并没有引用 Linnainmaa,甚至在后续的研究中也没有提及。

Ivakhnenko 的深度前馈网络(1965)在 Hinton(20 世纪 80 年代)很久之前就已经学习了中间表征,而且比 Hinton 提出的网络要深,但 Hinton 从未引用他。

Sec. XX:ACM 赞扬了 LeCun 的分层特征表征的研究,但是他没有引用 Ivakhnenko 自 1965 年以来早就有的研究成果。

Sec. XXI :ACM 赞扬了 LeCun 在自动微分方面的研究。但没有引用它的原创者 Linnainmaa(1970)。还有在图深度学习中,也没有引用先前 Sperduti、Goller、Küchler 和 Pollack 的研究。

Sec. XV:ACM 称赞了 Bengio 在神经网络和序列概率模型的混合体方面的研究。但是他并不是第一个研究这个主题的人,并且这对基于我们的 CTC-LSTM 的现代深度学习语音识别系统也不重要。

Sec. XVI:ACM 称赞了 Bengio 在神经概率语言模型方面的研究,而我们 1995 年的神经概率文本模型比 Bengio 的要早很多。ACM 所提到的神经网络学习序列注意力,我们早在 1990-1993 年就开始研究了。这要早于 LBH 的研究,但他们并没有引用我们的成果。

Sec. XVII:ACM 所提到的 Bengio 团队的生成对抗网络(GAN)是我在 1990 年提出的的 Adversarial Artificial Curiosity 的一个特例,但他并没有引用。

此外,我还列出了与 Bengio 和 Hinton 的另外 7 项原创权争议(无法解释为巧合),在梯度消失(1991)、元学习(1987)、无监督预训练(1991)、将一个神经网络(NN)压缩或蒸馏为另一个(1991)、通过外部乘积获得快速权重(1993)、用神经网络学习序列注意力(1990)以及其他主题。

结论:在近十年来的深度学习中,ACM 所提到的那些在数十亿设备上运行的 AI 应用(语音识别、语言翻译等),很大程度上依赖于我们所提出的深度学习技术和概念基础。而 LBH 最著名的研究忽略了自 20 世纪 60 年代以来的其他研究成果。但是在科学领域,事实终会取胜,只要事实还没有赢,那么一切就还没有结束。

网友:这里面有误会

鉴于每隔一段时间 Jürgen Schmidhuber 都发一封怒怼公开信,一部分围观者的内心已经毫无波动,只是觉得:「又来?」


有人认为他的怒怼或许过了火:「他甚至觉得 ACM 在图灵奖的奖项描述中,对阿兰 · 图灵过誉了……」


这是因为 Jürgen Schmidhuber 在本封公开信提到,ACM 关于阿兰 · 图灵的声明具有误导性,比如说图灵「阐释了计算的数学基础和局限性」,而图灵并不是第一个这样做的科学家。

情绪之外,真相更重要。看完这篇长文,有人表示:「我很欣赏这些详尽的论证,纠正学术史上的错误是有价值的。」


「我问过一个人,他说真相也许并不在某一方手中。因为在互联网出现之前,那时的学术研究和现在不一样。学术成果的传播会比较慢,其他人同时提出类似发现的情况也更普遍。再加上经常出问题的方法论,结果就是一团糟。」

有人赞同这一观点,表示对于 Jürgen Schmidhuber 的文章内容要权衡之后再下结论。「我曾经看过他的部分观点,一些确实很好也很有趣,但另一方面我的印象是,他夸大了自己的情况,吹毛求疵。」


「早期的发现可能是个死胡同,在后来的某一阶段,同样的发现也许就能产生影响了。首倡者应该在历史上被记得,但不一定是最引人注目的。当然,故意忽略前人的研究发现是不好的。」

有人表示,自己曾在 Reddit 上看到过 Hinton 的回复,他说神经网络是已经存在的,他是那个给出概念验证的人,是通过预测下一个单词来学习内部表征的人,自己也是一直这样表示的。是媒体一直将他宣传为发明者。


或许,这只是一场误会?

但不管怎么说,Jürgen Schmidhuber 的勇气和决心总是值得钦佩的,试问谁能在搞研究之余还经常写一篇逻辑如此严密且复杂的长文呢?


「我个人认为,当今学术研究以美国为中心,那里的很多研究人员不仅在各自领域足够优秀,在网络营销方面也很有效率。营销这件事有利于促进研究和交流合作,但也有代价:不搞自我营销的研究者容易被忽视。」

他评价说:「所以,我很感谢 Jürgen Schmidhuber 这样『堂吉诃德』式的存在。」

参考链接:
Jürgen Schmidhuber 的新博文:http://people.idsia.ch/~juergen/critique-turing-award-bengio-hinton-lecun.html#XV
ACM 2018 图灵奖得主介绍:https://awards.acm.org/about/2018-turing
产业Jurgen Schmidhuber图灵奖
暂无评论
暂无评论~