谁写出了AI领域最具影响力的论文?这两位德国学者打破了Bengio和LeCun的年度被引记录

随着时间的推移,深度学习领域被引最高的论文发生了变化,这是图灵奖之外的另一种认可?

作为「LSTM 之父」的 Jürgen Schmidhuber 虽然没有获得图灵奖(也因乖张的行为不受待见),但他在深度学习领域的贡献仍然获得了整个社区的「被动认可」。

最近几天,有人通过 Google Scholar 的统计发现:Hochreiter 和 Schmidhuber 1997 年发表的 LSTM 论文成为了 20 世纪被引最高的深度学习研究论文

截至今日,这篇论文的被引用量已经达到 26166,超过了 Hinton 1985 年发表的反向传播相关论文(《Learning internal representations by error propagation》)。

出人预料的排名变化是在最近发生的,LSTM 论文在 2019 年的年度引用量高达 9752 次,高于此前 Bengio、LeCun 等人年度被引最高的 CNN 相关论文(《Gradient-based learning applied to document recognition》)。

20 世纪 DL 最高被引论文易主

其实在此之前,20世纪深度学习领域被引量最高的论文一直是图灵奖得主 Geoffrey Hinton 的「反向传播」相关论文,其累计引用量达到了 64757。但值得注意的是,该引用量是标了星号的(如下图所示)。

该星号表示,这个数字代表的不是单篇论文引用量,而是几篇论文的综合引用量。包括:

  • Learning internal representations by error propagation. DE Rumelhart, GE Hinton, RJ Williams, California Univ San Diego La Jolla, Inst for Cognitive Science, 1985 (被引 25k)

  • Parallel distributed processing. JL McClelland, DE Rumelhart, PDP Research Group, MIT press, 1987 (被引 24k)

  • Learning representations by back-propagating errors. DE Rumelhart, GE Hinton, RJ Williams, Nature 323 (6088), 533-536, 1986 被引 (20k)

  • ……

因此,上图中 Hinton 被引最高的深度学习论文《Learning internal representations by error propagation》的单篇引用量应该为 25398,略低于 Schmidhuber 的上述论文。

除此之前,Schmidhuber 的上述论文在年度引用量上也拔得头筹(9752),超过了上述「反向传播」三篇论文的总和(3574+461+3181),也高于之前年度被引最高的 CNN 相关论文(6301)

Schmiduber LSTM 论文年度被引用量。

Bengio、Lecun 等人 CNN 相关论文年度被引用量。

深度学习经典论文——LSTM

LSTM 的全称是长短期记忆网络(Long-Short Term Memory),是具有长期记忆能力的一种时间递归神经网络 (Recurrent Neural Network),其网络结构含有一个或多个具有遗忘和记忆功能的单元。由于独特的设计结构,LSTM 适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

该论文首次发表于 1997 年。由德国慕尼黑工业大学的计算机科学家 Sepp Hochreiter Jürgen Schmidhuber(现任瑞士 Dalle Molle 人工智能研究所的联合主任)共同完成。

论文链接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.676.4320&rep=rep1&type=pdf

在提出时,LSTM 被用于解决传统 RNN 在随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括 Forget Gate、Input Gate 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。

LSTM 网络由重复结构的 LSTM 单元组成,与 RNN 不同之处在于,重复的单元有四层特殊的结构(RNN 只有一层)。

LSTM 论文中的简单模型示意图(8 个输入单元、4 个输出单元和两个存储单元),被视为深度学习领域的经典。

LSTM 的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好,比如用在不分段连续手写识别上。2009 年,用 LSTM 构建的人工神经网络模型赢得过 ICDAR 手写识别比赛冠军。LSTM 还普遍用于自主语音识别,2013 年运用 TIMIT 自然演讲数据库达成 17.7% 错误率的纪录。作为非线性模型,LSTM 可作为复杂的非线性单元用于构造更大型深度神经网络

21 世纪 DL 最高被引论文

时间进入 21 世纪,人工智能/深度学习领域再次兴起。在新的阶段,有三篇经典论文被人们引用的数量远超其他。

有趣的是,它们都是有关神经网络在大规模图像数据集 ImageNet 之中的应用,这在一个侧面说明了计算机视觉方向的火热程度。其中一篇论文介绍了一种快速的、基于 CUDA 的深度卷积神经网络——它就是 AlexNet,这一方法赢得了 2012 年的 ImageNet 竞赛。另一篇论文则是 ImageNet 2014 年冠军的获得者:

  • A Krizhevsky、I Sutskever, GE Hinton《Imagenet classification with deep convolutional neural networks》NeuerIPS 2012 (被引次数 53,000)

  • B. K Simonyan、A Zisserman《Very deep convolutional networks for large-scale image recognition》arXiv:1409.1556, 2014 (被引次数 32,000)

年度被引次数最多的论文,当然是网络更深、性能更强大的 ResNet——《Deep Residual Learning for Image Recognition》,这一方法赢得了 ImageNet 2015、以及 COCO 竞赛的冠军,也获得了 CVPR2016 的最佳论文奖:该研究的作者是何恺明、张祥雨、任少卿孙剑(被引次数 36,000;其中仅在 2019 年就增长了 18,000 余次)。

孙剑等人提出的「深度残差网络 ResNet」和「基于区域卷积神经网络的快速物体检测 FasterRCNN」等技术目前被学术和工业界广泛采用,对深度学习的基础研究具有里程碑式的意义。这些研究的思路也被应用在了计算机视觉之外:ResNet 的思想也启发了 DeepMind 的 AI 围棋程序 AlphaGo Zero,并已被应用到了机器翻译语音合成语音识别等不同领域。

ResNet 现在甚至也成为了深度学习硬件衡量算力的 Benchmark 标准。参与这一研究的四名中国学者如今也都广为被人们所知,当时他们均任职于微软亚洲研究院视觉计算组。

值得注意的是,这些「屡次打破记录的 GPU 加速卷积神经网络」也可以追溯到 Schmidhuber 及其弟子们的研究。AlexNet 的作者 Krizhevsky 在其论文里引用了 DanNet,后者是第一个充分利用 CUDA,并在图像识别挑战上超越人类水平(2011 年)的卷积神经网络。DanNet 在 2011 年的 ICDAR 中文手写内容识别竞赛、IJCNN 2011 交通信号识别竞赛、ISBI 2012 图像分割竞赛以及 ICPR 2012 医疗影像识别竞赛中获得了冠军。

作为目前卷积神经网络中最著名的一种,ResNet 比 DanNet 和 AlexNet 更深入,前者引用了 Srivastava 等人在 2015 提出的 Highway Net(也是 Schmidhuber 等人的研究),这是个特例。从某种意义上讲,这形成了 LSTM 的闭环,因为「Highway Net 在本质上是 LSTM 网络的前馈版本」。

大多数 LSTM 的引用都是参考的 1997 年的这篇 LSTM 论文,但 Schmidhuber 在 Annus Mirabilis 发表的一篇文章指出,LSTM 的基本观点可以追溯到 Seep Hochreiter 在 1991 年的毕业论文,他认为那篇论文是「机器学习研究史上最重要的文献之一」。而且他还向其他学生表示感谢:「LSTM 及其训练程序的改进,都需归功于 Felix Gers、Alex Graves 以及其他我的学生们的贡献。」

LSTM 的原理对于循环网络和前馈网络都是必不可少的,如今它存在于每一部智能手机上,还存在于 DeepMind 在星际争霸以及 OpenAI 在 Dota 这些游戏中取得的冠军中,以及大量 AI 相关应用中。

不过,LSTM 被人们「再次重视」或许也只是一时的现象。在 Reddit 上有网友指出,最近基于 Transformer 的方法正在逐渐升温。

参考链接:https://www.reddit.com/r/MachineLearning/comments/eg8mmn/d_the_1997_lstm_paper_by_hochreiter_schmidhuber/

理论何恺明ImageNetLSTMJürgen Schmidhuber
3
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
何恺明人物

Facebook AI Research研究科学家。Residual Net提出者。

任少卿人物

任少卿,Momenta公司研发总监,毕业于中国科技大学与微软亚洲研究院联合培养博士班,曾参与提出适用于物体检测的高效框架Faster RCNN和图像识别算法ResNet,后者相关论文于2016年获得计算机视觉领域顶级会议CVPR 的Best Paper Award。

孙剑人物

孙剑,男,前微软亚研院首席研究员,现任北京旷视科技有限公司(Face++)首席科学家、旷视研究院院长 。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类,检测和定位,MS COCO 检测和分割) ,其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

Sepp Hochreiter人物

Sepp Hochreiter 是一名德国计算机科学家。 1991 年,Sepp Hochreiter 发表了德语论文,探讨了循环神经网络的梯度随着序列长度增加倾向于消失或爆炸。与 Yoshua Bengio 的相关工作几乎同时,并且开发了 LSTM 的雏形。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

时间递归神经网络技术

时间递归神经网络 (aka.循环神经网络, RNN) 是一类擅长处理序列数据的神经网络,其单元连接形成一个有向环。一般人工神经网络(ANN)由多层神经元组成,典型的连接方式是在前馈神经网络中,仅存在层与层之间的互相连接,而同层神经元之间没有连接。RNN在此基础上结合了隐藏层的循环连接,从而能从序列或时序数据中学习特征和长期依赖关系。RNN隐藏层的每一单独计算单元对应了数据中某个时间节点的状态,它可以是简单神经元、神经元层或各式的门控系统。 每一单元通过参数共享的层间顺序连接,并随着数据序列传播。这一特性使得RNN中每一单元的状态都取决于它的过去状态,从而具有类似“记忆”的功能,可以储存并处理长时期的数据信号。 大多数RNN能处理可变长度的序列,理论上也可以建模任何动态系统。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

深度残差网络技术

残差网络是为了解决深度神经网络(DNN)隐藏层过多时的网络退化问题而提出。退化(degradation)问题是指:当网络隐藏层变多时,网络的准确度达到饱和然后急剧退化,而且这个退化不是由于过拟合引起的。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

推荐文章
暂无评论
暂无评论~