历史需要重写?AlexNet之前,早有算法完成计算机视觉四大挑战

2012 年,深度学习三巨头之一、图灵奖得主 Geoffrey Hinton 的学生 Alex Krizhevsky 提出了 AlexNet,并在当年度的 ILSVRC(ImageNet 大规模视觉挑战赛)以显著的优势获得当届冠军,成绩远超第二名。这一成绩引起了学界和业界的极大关注,计算机视觉也开始逐渐进入深度学习主导的时代。但这样一个划时代的研究最近也受到了质疑。

近日,有网友在 reddit 上声称,Jurgen Schmidhuber 团队的 Dan Ciresan 提出的 DanNet(也是一种基于 CUDA 的卷积神经网络)先于 AlexNet 完成了四项图像识别挑战。

DanNet 早于 AlexNet 的有力证据

发帖者在在 reddit 中展示了如下一些证据:

1. 发帖者从 Jurgen 发表的《Deep Learning: Our Miraculous Year 1990-1991》第 19 章节的参考文献中看出了端倪;

2. 发帖者表示,在 AlexNet(2012 年 ImageNet 竞赛冠军)之前,Jurgen 团队的罗马尼亚博士后 Dan Ciresan 就已在 2011 年 5 月 15 日和 2012 年 9 月 10 日之间赢得了四项重要的计算机视觉竞赛,所采用的 CUDA CNN 姑且称为 DanNet;

图中红框标注的 IDSIA 即 Dan Ciresan 等人所在的团队,他们在 2011 年 5 月 15 日和 2012 年 9 月 10 日期间赢得了中文书写、交通标识、脑区域分割和癌症检测四项重要的计算机视觉竞赛。

3. 发帖者曾看到有新闻报道称,AlexNet 在 2012 年开启了深度学习革命,但事实上根据 Jurgen 的文章,DanNet 在 2011 年就成为首个赢得 superhuman 视觉模式识别竞赛的方法,并且还采用比 AlexNet 更大的图像赢得了医疗成像竞赛;

Dan Ciresan 参与首次赢得了 superhuman 视觉模式识别竞赛。

Dan Ciresan 参与赢得了乳腺癌组织学图像的有丝分裂检测竞赛。

4. DanNet 被引最多的论文《Multi-column Deep Neural Networks for Image Classification》(CVPR,2012 年 7 月)要比介绍 AlexNet 的论文《ImageNet Classification with Deep Convolutional Neural Networks》(NIPS,2012 年 12 月)早了 5 个月,但关于 DanNet 更早的论文出现在 IJCAI 2011 和 IJCNN 2011 会议上;

Dan Ciresan 的论文。

Alex Krizhevsky 的论文。

5. 公平地说,AlexNet 引用了 DanNet,并承认两者相似,但 AlexNet 并没有提到 DanNet 曾早于它赢得了四项计算机视觉挑战;

6. ResNet 在 2015 年的 ImageNet 竞赛中击败了 AlexNet,但 ResNet 实际上是更为早期的 Highway networks 的一个特例,后者也是 Jurgen 实验室最早提出的,在「第一个超过 100 层的可行前向传播网络」中,Jurgen 把他们的先行性研究归功于自己的学生 Rupesh Kumar Srivastava 和 Klaus Greff。

Jurgen 认为微软的 ResNet 是其团队提出 Highway Nets 的一种特例。

7. 在 Jurgen 文章的第五章节中,他详述了「GAN 的起源」,而在第四章节中,他介绍了 2009 年获得成功的 LSTM。上述内容大家已经耳熟能详,不过大多数人可能还不知道 Jurgen 团队还是第一个在 CUDA 上搞 CNN 并取得成功的。

以上就是发帖者认为 DanNet 先于 AlexNet 出现的一些文献证据。

世间欠 Schmidhuber 一个图灵奖?

那么这样看来,当今深度学习的很多概念,都是 30 年前 LSTM 之父 Jürgen 玩过的?Reddit 上热闹的讨论,源自于今年 10 月,Jürgen Schmidhuber 专门对此发表的一篇文章,其详细论述了近 30 年前(1990-1991 年间)他和团队所进行的很多研究。据他本人称,其中的研究思想为当今的许多深度学习前沿研究奠定了基础,包括 LSTM、元学习遗忘门机制、注意力和强化学习等。

人们对于 Jürgen Schmidhuber 的印象通常是「LSTM 之父」,他来自德国,现任瑞士 Dalle Molle 人工智能研究所负责人,是人工智能领域的著名学者。在 LSTM 之外,他还一直认为近年来发展很快的 GAN 模型是其早在 1992 年提出的 PM 模型的变体。除此之外,他还在语音识别等方向上有着不小的贡献。

在今年 3 月,计算机领域最高荣誉图灵奖颁发给深度学习三巨头 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 之后,有关「学界欠 Jürgen 一座图灵奖」的讨论一时变得热闹起来。

人工智能著名学者,南京大学人工智能学院院长周志华也曾表示:「要论对深度学习的贡献,Hinton 无疑居首,LeCun 和 Schmidhuber 贡献都很大。但 HLB 总捆绑在一起,而 S 跟 HLB 都不对劲……获奖需有提名有投票,人缘也重要……不过没关系,有 LSTM 这样教科书级的贡献足以淡定。」

Jürgen 本人对于自身学术地位「遭受不公待遇」一直颇有微词,他近年来总是在各个场合宣扬自己的创造性研究,甚至不惜与其他著名学者公开对质(你或许会对 Jürgen 在人工智能顶会 NIPS 2016 现场大战「GAN 之父」Ian Goodfellow 的事件记忆犹新)。因此,人们对于 Jürgen 的看法也呈现两极分化的情形。

今天的讨论也没有例外,在 DanNet 超前于 AlexNet 讨论刚刚开始的时候,占上风的观点是这样的:

好了好了,Jürgen 就是我们的造物主。

但总的来说,对于个人性格的调侃还是要让位于理性,人们最终还是认为 Jürgen Schmidhuber 确实吃了名声的亏。

正视他的贡献吧,网友说道:

虽然我们都在幸灾乐祸,但 Jürgen 的确配得上获得图灵奖。在 LSTM 之外,他的很多研究都令人印象深刻。

在计算机科学领域里,有很多个性乖张的学者,特立独行总是不受欢迎的。但我总是奇怪人们会拿这个理由来评判他们的学术贡献。

我认为目前以北美为中心的 CS 学术体系完全压制了全球其他研究机构类似的贡献。

参考链接:https://www.reddit.com/r/MachineLearning/comments/dwnuwh/d_dannet_the_cuda_cnn_of_dan_ciresan_in_jurgen/

http://blog.itpub.net/31077337/viewspace-2158712/

理论计算机视觉ImageNetJürgen SchmidhuberAlexNet
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于 南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘 等领域的研究工作。主持多项科研课题,出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012),在一流国际期刊和顶级国际会议发表论文百余篇,被引用三万余次。

Ian Goodfellow人物

Ian Goodfellow 是机器学习领域备受关注的年轻学者之一,他在本科与硕士就读于斯坦福大学,师从吴恩达,博士阶段则跟随蒙特利尔大学的著名学者Yoshua Bengio研究机器学习。Goodfellow 最引人注目的成就是在2014年6月提出了生成对抗网络(GAN)。这一技术近年来已成为机器学习界最火热的讨论话题,特别是在最近几个月里,与GAN有关的论文不断涌现。GAN已成为众多学者的研究方向。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

遗忘门技术

LSTM或GRU中特有的机制

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~