Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

李可、瑞清、李阳阳、钱天培编译

Yan LeCun强推的AI简史:两大流派世纪之争,神经网络华丽回归

2010年以来,基于机器学习(尤其是深度学习)的预测算法在一些领域取得了极大的成功,比如说图像识别和机器翻译。而我们把这些算法都称作是人工智能(AI)。

不过,深度学习成为这些领域的主流并不是一蹴而就的。在人工智能纷繁的历史中,联结主义神经网络就属于联结主义)长时间被符号主义所排斥。这篇论文通过符号主义和联结主义之间的斗争,回溯了人工智能的历史,以及最近深度学习的出现。

在这篇被Yan LeCun等多位大咖推荐的法语文章中,我们将看到,联结主义的科研者们是如何使用大量的数据和强大的算力,一步步用控制论时代的自适应推断机,并主导了符号主义提出的人工智能项目。

大数据文摘将全文翻译如下,enjoy。 

2012年10月 ECCV 会议中的一幕将成为计算机发展史上的一个传奇。ECCV几乎汇集了计算机视觉领域的所有优秀的研究人员。

“所以在2012年 ECCV 组织的比赛中,谁赢了?”

是Hinton,神经网络之父!

他给计算机视觉领域带来了一场地震——他和他的学生提供的系统将传统的方法打的一败涂地,而之前他甚至在该领域鲜有研究。

他的学生Alex Krizhevsky提出的AlexNet类似于一个黑箱,Alex对这个黑箱说:“你给我好好训练,等可以得到好的结果了,就结束吧。”

当时他们使用带有 GPU 的机器进行训练。但是和现在相比,机器的算力还是很有限的,但他们通过一些技巧使GPU之间的通信变得高效,并控制了通信的性能损耗。

这绝对是一个疯狂的机器,否则它永远不会成功。

那个时候,计算机视觉领域的研究人员都在为 ImageNet 这个数据集感到兴奋。这个数据集有120万张带标签的图片,共有1000多个类别,是衡量比较不同的模型的基准

第一名的错误率是27.3%,第二名是27.18%,第三名是27.68%。而 Hinton 他们使用了AlexNet:“我们跑的模型很深,我们的错误率是17%”,这个错误率比之前最优模型减少了10%。Alex 这个穿黄衣服的极客,他做到了!他宣布结果,房间里的所有人都震惊了。

他也不能解释为什么要使用这样的技巧,他只是造了一个黑箱,然后让它自己训练,而他甚至对这个领域一无所知。在那里,他对面是 李飞飞,而Yann LeCun坐在房间里面,正站起来准备回答问题。(李飞飞是计算机教授,斯坦福SAIL 实验室的负责人。Yann LeCun 现在是Facebook FAIR 实验室的负责人,同时也是神经网络的奠基人之一。)

计算机视觉领域的人试图反驳 “这样做是不行的,物体识别不能用这种方式来做……” 这些技术最终都落地了,这大概是因为它们默默的发展了十年然后厚积薄发吧。

很多人想探究这类方法取得这么好结果的深层原因。

深度学习可以看作一个黑箱,它有很深的结构,一亿个参数。它通过大量的数据进行训练,然后震惊了整个计算机视觉领域。“如果输入的图片有一些扰动,你的模型还能给出一样的结果吗?”,有人问。

Alex 自己也无法回答这个问题。还是 LeCun 作出了回答:“这个模型能处理这个问题,是因为……”。LeCun 非常高兴,李飞飞问他“Yann,这个模型和你在80年代发明的模型有根本上的不同吗”,Yann 回答说:“不,它们完全一样,并且它赢得了所有的比赛。”

深度学习图像分类任务的成功改变了其相关技术在科学社区长期边缘化的境况。在这个令人吃惊的结果后面,是对这个新方法有效性的质疑,对传统方法未来的担忧,对这个新闯入者理论知识缺乏的嘲笑,对新方法带来的改变的疑惑……自2010年以来,神经网络对计算机领域产生了深刻的影响,比如说:信号处理语音处理自然语言处理。这个新的方法可以直接把原始数据作为输入,而不需要人工提取特征。它还可以通过大量的数据来优化模型,产生令人瞩目的结果。图1 简单展示了这个转变:由假设演绎模型变成了归纳模型。

计算过程,程序,模型的规则,在旧的系统中需要人工设置,而在这个新的系统中它们则成了学习的目标。图1 就展示了这种转变。

符号主义 vs 联结主义

神经网络在2012年的 ECCV 取得了巨大的成功,但它并不是什么新东西。利用强大的算力,以及大量的数据,现在已经可以满足控制论的一些要求。只是最近用于描述这些技术的术语是人工智能( AI )。

John McCarthy 于1956年提出了人工智能这一概念。目前在机器学习领域,尤其是深度学习领域,预测算法正在取得重大进展,但把这些技术归于人工智能并不严谨。在历史上,神经网络(以前叫联结主义)长时间被符号主义所鄙视。这两种方法之间的紧张关系在人工智能刚诞生并与控制论划清界限时就开始了。

符号主义的学派以认知主义为基础构成了AI的初步框架:认知就是通过对有意义的表示符号进行推导计算。然而,联结主义认为认知可以看作大规模并行计算, 这些计算在类似于人脑的神经网络中进行,这些神经元集体协作并相互作用(Andler,1992)。这两种思想下造出的“智能”机器区别是巨大的。

今天我们正在目睹科技史的一个伟大的逆转:之前在人工智能领域被边缘化的联结主义重新回归。就像Michael Jordan (2018) 讽刺的那样:“维纳提出的方法却披着McCarthy发明的术语的外衣”。维纳提出了控制论,我们现在使用的神经网络就可以看作控制论,而人工智能(AI)这个术语是 McCarthy 发明的。

为了讲清楚这些互相交叉的理论方法,首先我们可以根据 Web of Science(WoS)收集的出版物数据来进行统计。观察提到“人工智能”,“符号主义”,“联结主义”文章作者的共引网络就够了。

我们可以在图2中看到我们将在本文中将提到的主要人物的名字,他们已经根据不同的科学社区进行了区分。在联结主义社区的中心是 Rumelhart, LeCun 和 Hinton。他们是深度学习的奠基者。他们周围也有很多其他研究人员 (Holland, Hopfield), 还有一些人为传统的机器学习方法作出了极大贡献,如 Breiman, Mitchell 和 Vapnik。在符号主义那边,核心人物如McCarthy, Minsky, Simon et Newell可以看作 AI 的创立者。他们周围也围绕着一群人,如 Dreyfus, Searle, Brooks,他们为认知模型、专家系统等等做出了重要贡献。

图3

如果我们看从1935年到2005年出版的 AI 论文,联结主义和符号主义之间的斗争似乎更加直观。在图3中,我们看到了最初联结主义控制论的诞生。然后,从20世纪60年代初开始,符号主义主导和定义了人工智能。最后,直到20世纪90年代中期,在人工智能的第二个寒冬之后,联结主义开始使用深度学习的名头在科学出版物中占据主导地位。

为了对人工智能系统有个整体的认识,我们引入三个词语,世界(monde),计算器(calculateur),以及视野(horizon)。这些词在不同的情况下有不同的含义:世界可以是:环境/输入/数据/知识数据,计算器可以是:计算/程序/模型/代理(agent),视野可以是:目标函数/结果/输出。

我们讲,这个预测系统安装了一个计算器来根据世界计算一个视野。在 AI 的历史中,世界,计算器,和视野的实体一直不停的变化。对这三部分的架构,研究人员还提出了种种截然不同的方式。AI 从符号主义转向联结主义并不是突然发生的结果,也不是说一种比另一种更有效。这个转变过程是不同方法和科学社区之间的重新组合与竞争。这也影响了计算技术,所需要处理的数据格式,目标,以及需要解决的问题 (Latour, 1987)。现在我们稍微总结一下这些概念:符号主义的研究人员尝试着人工设计计算器,世界,和视野。而联结主义的研究人员则相反,他们尝试把计算器清空了,让世界来自己得出它的视野。

控制论和最开始的联结主义

神经网络起源于早期的计算机以及控制论,虽然最开始它并不是叫这个名字,我们叫它联结主义神经网络这个词由神经学家 Warren McCulloch逻辑学家 Walter Pitts 在 1943 年提出,最初含义是指给人脑的神经网络进行数学建模。那篇文章一直被深度学习的文章引用至今,甚至可以看作联结主义的起源。

从图3我们可以清楚的看到,在控制论的早期阶段,联结主义一直占据着主导地位。那篇文章所描述的是:神经元接受不同的输入,然后会计算出一个加权和。如果这个加权和超过一个阈值,会激发这个神经元。当时这个概念并没有和人工智能联系起来,“人工智能”这个词语还不存在。直到1949年神经学家 Donald O. Hebb 才把神经网络机器学习联系起来。他发现神经元之间通过突触信息被激活可以看作一个学习过程。受此影响,神经网络模型变成了控制论的一个重点,并成了第一台“智能”机器的计算器的核心 (Dupuy, 2005)。

世界和计算器之间的耦合

这类系统的特点在于它们与环境(世界)之间紧密耦合,以至于没有必要为它们的计算器配备特别的部分。控制论提议直接弄一个简单的黑箱,将这个黑箱的学习与视野联系起来,通过测量世界和机器行为的误差来调节黑箱里的参数。这种机器智能行为主要基于信息,而不同于人工智能诞生时用的符号主义(Triclot,2008)。这个信息所指的是编码之前的信号。根据 Shannon 的信息论,信息被视为一种纯粹的形式,它表示 “事物中的有序程度或结构”(Triclot,2008)。

然后,控制论将其计算的视野定义为对世界的输入和输出的比较。在Norbert Wiener 的防空导弹制导系统里,预测装置的训练过程就是通过比较目标有效轨迹与上一步的预测轨迹之间的区别,然后不断更新系统。

这个设备可以根据给定的数据对计算器进行更新,然后收敛到最佳的结果。负反馈系统(将输出误差变为自适应系统的新的输入)就变成了控制论的主要部分。这也参考了当时的行为心理学(Skinner,1971),参考了生物器官的一些行为,机器可以根据环境信号来进行自适应,而不需要在内部给它设置一些规则,总之智能需要有自我学习能力。

Arturo Rosenblueth, Norbert WienerJulian Bigelow 在 1943 年定义了控制论的基本原理,他们想象一个能够自我纠错的机器,通过概率的方法根据目标以及所犯的错误对结果进行修正,这就是一个自适应的过程。以严格的“消除主义”思想,控制论里的系统可以没有意图,计划,或推理的概念(Galison,1994)。

Ross Ashby (1956, p. 110) 把系统的计算器部分描述是一个黑箱,控制论里的预测系统的配置与世界和计算器紧密相关,它的视野是系统对自己的自适应优化。 20世纪50年代的控制论系统(Homeostat,Adaline等)由于算力限制,只能算是实验室里的一个玩具,但现在随着算力的提高以及更多的数据,深度学习可以更有效地配置训练这个黑箱。

感知机和联结主义系统

McCulloch和Pitts提出的神经网络计算机视觉领域提供了一种特别适合的解决方案,用计算机配备这些原始的自适应机器。在20世纪50年代后期,神经网络经历了一次重大的发展,进入了一个类脑机器计划。

联结主义受到了很多其它工作的启发,包括 Bernard Widrow 的 Adaline,斯坦福大学 Charles Rosen 的 Shakey,   Pandemonium, Oliver Selfridge 的混合系统 (1960)。康奈尔大学的心理学家和计算机学家 Frank Rosenblatt 提出的感知机可以算是一个真正的联结主义系统,并且成为了计算器产生智能行为的标志。这种用于图像识别的系统受到了很多关注,并从美国海军(ONR)获得了大量资金。 

Frank Rosenblatt 设计的机器受 McCulloch 和 Pitts 提出的神经网络的启发,同时增加了学习机制。在感知机叠加的各层中,输入神经元模拟视网膜活动,输出神经元对系统识别的“特征”进行分类,只有中间的隐藏层才能学习。

与 McCulloch 和 Pitts 提出的“下行”组织不同,Frank Rosenblatt 提出采用自下而上的方法,用学习机制统计学习网络结构。在软件实现感知机之后,Frank Rosenblatt 将开始构建硬件版本的感知机:Mark I,它将400个用光电设备组成神经元。 突触权重由电位计编码,并且学习期间的权重变化由电动机执行。由于当时的技术限制,这类物理实现的感知机还是很罕见的。并且,由于人工智能另一个分支, 符号主义的发展,这部分研究趋于停滞。

符号主义

Dartmouth, John McCarthy 和 Marvin Minsky 在1956年达特茅斯举行的会议中提出了人工智能(AI) 这个词语,用来反对早期控制论里的联结主义 (Dupuy, 2005)。他们觉得机器根据输入和输出进行自适应调整是不够的, “符号主义” 人工智能的目标是把人工定义的程序算法和规则放入计算机系统中,这样可以从更高一级来操纵系统。所以AI诞生之初对联结主义的一些观点是排斥的。如图3所示,符号主义从19世纪60年代中期到90年代初,一直在人工智能领域占主导地位。

符号主义的最初工作由 Herbert Simon 和 Allen Newell 在19世纪50年代推动。1956年,他们写了第一个人工智能程序 Logic Theorist ,让机器来模拟做决策的过程。这个程序完成的任务也经常被人工智能的研究人员使用。他们宣布: “这个圣诞节我们发明了一个有思维的机器”。从1956年到70年代初,推理模型都是早期AI的核心。这个领域的研究迅速被一小部分机构和人给统治:MIT (Minsky, Papert), Carnegie Mellon (Simon, Newell) 和 Stanford University (McCarthy)。

尽管这个研究圈子内部有一些分歧,但是他们几乎垄断了 AI 研究的一切,包括资金以及大型计算机的使用权。从1964 到 1974,ARPA和空军用于研究人工智能75%的资金都被他们拿走了。他们的项目也争取到了当时为数不多的算力资源。在ARPA,受益于 Joseph Licklider的坚定支持,符号主义项目获得了科研资金,同时也可以通过在军事系统上的应用来验证系统的合理性。在19世纪60年代初,继承自控制论联结主义方法由于 Frank Rosenblatt 提出的感知机产生了一股热潮。尽管还是一名学生,他开发出了一个神经网络系统 Snarc(1951)。

Marvin Minsky 说符号主义所领导的具有优美数学的AI正面临着“神秘”,“被浪漫主义气氛包围”的自组织系统和联结主义的挑战 (Minsky et Papert, 1969)。通过对单层感知机的分析,他和 Simon Papert 证明了神经网络不能实现异或(XOR)操作,所以觉得它们是没有未来的。正如 Mikel Olazaran (1996) 所介绍的,Minsky 和 Papert 的策略是通过流行的符号主义来对人工智能进行定义。即使这本书的造成的影响可能并不是作者的本意,其后果也将是不可改变的:在1971年 Frank Rosenblatt 英年早逝之后,神经网络被抛弃,相关项目的资金资助被停止,神经网络离开了人工智能领域。

对符号进行操作的空间

符号主义的机器的主要特征是打破了与世界的耦合,并赋予了计算器一个自主的推理空间。在这个完全对计算器开放的编程空间里可对符号进行操作。 

20世纪50年代建立的冯·诺伊曼架构,就是这样一个空间。设计于计算导弹弹道的ENIAC(1946)本想在硬件中给机器“编程”,但后来分离了软件和硬件,软件用执行基于符号的逻辑运算,而硬件是机器的物理结构 (von Neumann, 1945) 。

于是一个独立于硬件,专门用于程序的空间产生了。硬件变成“计算程序的中央化通用型自动机”(Goldstine,1972,pp.198-199),而编程,根据艾伦·图灵(2004,p.21),变成了“文书工作”。Paul Edwards(1996)表明,接近人类语言的高级编程语言的出现(再编译成0/1形式的机器语言)使分离物理机器和符号机器成为可能。人工智能从此可以说是关于机器的思想的科学。编程语言也是人工智能对计算机科学的最早贡献之一。

符号操作空间的出现与认知科学的出现 (1956) 有关。认知科学反对行为主义心理学极其控制论的“黑箱”概念,它的任务是赋予机器抽象和逻辑能力。认知科学也与联结主义不同,不关心生理学和人的行为,只关注推理。计算思想的理论,基于二元论,被构建出来:假设精神状态可以同时被物理地和符号地描述;物理式描述,如对信息的一系列物理性处理,符号式描述,包括符号操作,机械操作,比较,层次、推断 (Andler,2016) 。这一假说也称为“物理符号系统”,假设思想不能直接与世界交流,但世界在思想内部的表示和思想所为可以被嵌在程序中的符号描述和组织。

一个“玩具”世界

符号主义机器的世界只是一个舞台背景,机器把它的逻辑原则的语法投射到世界:国际象棋,跳棋游戏(Arthur Samuel),几何定理证明 (Herbert Gelertne),就像电子游戏的背景。 第一波人工智能的特点是发明了简化的空间,空间形式需要机器去认识和改动,例如Marvin Minsky的计算机环境Microscope (MAC) 或Terry Winograd的著名语言SHLURDU。 想象一个虚构的空间,只有几个房间几个物体,Shakey机器人在其中移动,一个“玩具空间”,其中的物体可以很容易地被联系到语法,语法经过计算会产生相应的系统行为。

如果计算器投射它自己的世界,这也是因为它企图把自己本身融入视野。正是在这个意义上,AI能够以“强者”的姿态回归,因为给予系统的目标是它自己的,可以从模型的逻辑推理中推导出来。巧妙的塑造系统语法的语言都是推论,它们把各种操作层层组织,每个操作都是对实体的基础变换,都是一次正确计算基础上的推论(Andler,1990,p100)。 如决策树,中间逻辑链,目标和子目标分解,中途/末尾分析(analyse moyen/fin) 。

合理的计算视野包含在程序的语法中。机器可以解决实际问题,找到正确的解,或做出适当的决策,而不需要给它正确答案(比如机器学习中的样本),因为规则可以通过遵循计算器的推理推导出来。推理原则的语法和被操纵对象的语义都内置在计算器中,可能会在正确的推理中彼此混淆,但也可以或多或少确定下来——以人工的代价:“智能”世界是由设计师实现的,受到监督,精准,明确,因此理性就是它的视野。是,在机房,这些机器能够达到一定的性能,但一旦向它们展现整个世界,它们很快就会变得盲目和愚蠢。

人工智能的第一个冬天

20世纪70年代早期,人工智能进入了它的第一个冬天,联结主义和符号主义的项目都将冻结。 两个流派都承诺得过多,而结果遥遥无期。 联结主义一边,Frank Rosenblatt的感知机被过早公之于众。在《激动人心的智能机器》新闻中,纽约时报报道“电子计算机雏形出现,海军希望它能走,说,看,写,制造自己,甚至拥有自我意识”。

符号主义一边,以Herbert Simon和Marvin Minsky为首,不切实际的宣言很快被否定掉了。翻译俄语的翻译器、渗透进敌人战线的机器人,坦克和飞机驾驶员的语音指挥系统,宏图面对的现实是:“智能系统” 还只是机房里的游戏。1966年,国家研究委员会削减了机器翻译的预算,随后一系列撤回落到了对人工智能的财务和学术支持上:Minsky和Papert在麻省理工学院的micromonde项目,斯坦福大学的Shakey机器人, DARPA的SUR语音识别计划……英格兰,1973年,重要的Lighthill报告发表,劝说人们停止对AI的公共资助。

在资金危机频发的情况下,推理逻辑模型的项目奄奄一息,批评越来越多。 1965年,Rand委托哲学家Hubert Dreyfus撰写了一篇关于人工智能的报告,名为“炼金术和人工智能”,发表了一个有力的论证:“计算机不能做什么”(Dreyfus,1972) , 第一版就大获成功。Hubert Dreyfus对建造人工智能的争论迅速大大削弱了推理规则可以给机器“智能”的想法。 对逻辑规则的阐释完全忽视了知觉有身体的,位置的,隐性的,显性的,集体性的,语境的,也忽视了人类对行为的决策。

第一代“叛徒”出现,他们批评、质疑自己曾有的希望:Joseph Weizenbaum, 先驱Eliza,SHRDLU的设计者 Terry Winograd。“智能”机器与美妙的逻辑规则,确定性语法和理性的目标吻合,但这样的机器的世界并不存在。

人工智能第二波浪潮:专家的世界

然而,人工智能将在20世纪80年代迎来第二个春天,“专家系统”对符号主义机器架构进行了重大修订。

通过访问更强大的计算机,将更多信息输入计算机的内存,重生得以实现。 然后,“玩具”世界被专家的智识构成的“专业知识簿”取代。第二代AI与可以世界的外延相互作用,而世界的外延并非由程序员设计塑造:它现在由来自不同领域的专家的知识组成,这些知识转化为陈述性命题,用尽可能自然的语言表达 (Winograd,1972),以便用户可以通过提问来互动 (Goldstein,Papert,1977)。

根据Edward Feigenbaum为DENDRAL(第一个识别材料化学成分的专家系统)提出的术语,待计算世界的外延导致了符号主义机器的架构改变,分离了计算器构成的“推理引擎”和称为“生产系统”的一系列可能的世界。知识的数据库是一个可修改的“如果 ... 那么”型规则的列表(例如:“如果发热,那么[搜索感染]”),它们与推理引擎分离,推理引擎用于决定何时、如何应用规则。

规则的圣殿

早期僵化的计算主义想发明一个不切实际的抽象宇宙,受到诸多的批评。现在人工智能研究将从最高层开始,理解,抽象,然后完成一个概念系统,来操作这些新的知识库。然后,这个符号主义的项目以超过必要的建模,不完备的推理和启发式的算法,在专家的帮助下,更接近用户的世界。这种计算器编程的特征在于放松逻辑运算符(语法),而构建过密的表示知识的概念网络(语义)。借用关于思想模块性的讨论(Fodor,1983),计算器将推理过程分解为基本的模块,分解为交互的“代理(agent)”,这些“代理”可以自主地用不同方式使用知识和做出推断。因此,第二波符号主义人工智能的主要创新构思产生于知识库知识库衍生出的有启发式意义的语义结构。

越来越多的输入知识和越来越复杂的概念网络推动了另一个转变:推理规则变得有条件,并且可以被概率化。对于John McCarthy的显式逻辑方法,Marvin Minsky和Samuel Papert在20世纪70年代坚持了另一个观点:正确/错误的二分法过于僵化。人们更倾向使用启发式的而非逻辑性的处理,因此真/假的分类不如有效/无效的分类。我们主要通过近似,简化和合理的直觉来走向真理,而这些直觉实际上是虚假的(Minsky et Papert, 1970, p. 41)。

在专家制定的数千条规则中,可能会发生这样的情况:从一个固定的前提(IF ...)出发,第二个命题(THEN ......)有一定概率为真。概率化使我们能够放宽人工智能早期确定性的推理形式,于是进入机器的知识变得更实际,更多样化,更矛盾,渗透进了更多概率(Nilsson,2010,p.475)。“有效/无效”代替了“真/假”,那么计算机的目标与其说是逻辑真理,不如说是对系统给出的答案的正确性,相关性或可能性的估计。但是,这种估计不再有计算机的规则的内在支持, 必须求助于外部的专家,由专家为机器学习提供示例和反例。

推断概率化逐渐渗透到AI领域,以执行程序员无法“手动”实现的任务(Carbonnell etc,1983)。在TomMitchell(1977)的工作之后,学习机制可总结为一种统计学方法:计算机自动生成假设空间内的最佳模型。学习机制“探索”计算器生成的各种假设模型,在逻辑推论上进行推理(概念简化,包含关系,反演推导),搜索合理的假设。进行推断性推理,消除候选假设的统计方法在此基础上成熟和发展,例如决策树(后来产生了随机森林)或贝叶斯网络(可以因果主义地定义变量之间的依赖关系)(Domingos, 2015)。然而,从20世纪90年代初开始,数据越来越多,却没有组织起来,不是被标记的变量,也不是相互依赖的概念,很快它们将失去可懂度。然后,我们将看到人工智能学习从“探索”向“优化”转变(Cornuéjols et al., 2018,p.22),这将使规则的圣殿崩溃。

要计算的数据的量和数据的现实意义不断增加,归纳机制转向了计算器内部。如果数据不再反映类别,变量之间的依赖关系,概念网络,那么,为了求得目标函数,归纳机制将基于优化标准得出正确的分布(Cornuéjols et al. , 2018, p. 22)。 待学习世界的构成转变,研究人员修改归纳的方法,并提出完全不同的机器架构。这种转变随着神经网络的发展加速,但转折点其实已藏于人工智能要学习的世界。 由于数据越来越“去符号化”,归纳机制构建模型时不再关注初始数据结构,而是优化因子 (Mazières, 2016)。计算的视野不再是计算器的内部,而是世界从外部给出的值 - 而且通常非常“人类”: 这个图像是否包含(或不包含)犀牛? 这个用户是否在这样的链接上点击(或不点击)?答案也就是优化的标准,必须将其输入计算器,才能发现贴切的“模型”。 因此新的机器学习方法(如SVM,神经网络)变得更加有效,但也变得难以理解,就如决策树的发明者LéoBreiman(2001)所指出。

专家系统建设者建造的崇高圣殿没有实现承诺,它们太复杂,而且性能非常有限。原本充满活力的市场大幅崩溃,有前途的人工智能公司也破产了。20世纪80年代,计算成本的降低和计算能力的提高给了超级计算机新的机会,这些计算机曾被符号主义者搁置,那时符号主义者统治着各种大型IT项目 (Fleck, 1987, p. 153)。将人工智能限于符号主义的大学学术圈的控制力越来越弱,在语音合成模式识别等领域,专家系统获得的成果很少。在20世纪90年代初,符号主义的AI非常弱,以至于这个术语几乎从研究中消失了。 完成无限长的显性规则目录,让机器懂得人类知觉、语言和推理的千万微妙之处,愈发成为一项不可能的,荒唐的,无效的任务(Collins, 1992 ; Dreyfus, 2007). 

深度学习的分布式表示

正是在这种背景下,20世纪60年代末开始流亡的联结主义方法在20世纪80年代和90年代回归和兴起,这个复兴时期,理论和算法都有巨大创造。1979年6月在La Jolla ,加州,Geoff Hinton和James Anderson组织召开了一个会议,会议上,一个聚集了生物学家、物理学家和计算机科学家的跨学科研究小组建议重新审视心理过程极具分布式和并行性的特点。

1986年,该小组以并行分布式处理(Parallel Distributed Processing,PDP)之名,出版了两卷成果。这一术语常用来洗脱联结主义的恶名 (Rumelhart et al. , 1986b)。 不同于计算机的序列式操作和符号主义的推理方法,PDP基于认知的微观结构,通过利用神经元隐喻的特点,绘制反模式:基本单元通过巨大的网络连接在一起; 知识不是统计性存储的,而是依靠各单元之间的连接;各单元通过0-1激活机制实现相互通信(<我们的系统中货币不是符号,而是激励和抑制>,p.132) ;这些激活一直并行进行,而非遵循一系列步骤; 信息流没有控制中心; 一个子路径不影响另一个子路径,但一个子系统会生成计算中需满足的约束,进而调整其他子系统的行为。

由机器执行的操作类似于松弛操作,其中计算迭代地进行,直到取得某个满足大量弱约束的近似值 (< 系统安装出解决方案,而非计算出解决方案>,p.135)。由联结主义者的构思物生成了许多内部表示,这些表示可能是高层级的,但它们是“亚符号的”,统计的,分布式的 (Smolensky, 1988)。如上,联结主义方法并不简单,而是一种非常有野心的智能架构,可以颠覆认知计算。

 “一开始,在20世纪50年代,像冯·诺伊曼和图灵这样的人不相信符号主义人工智能,Geoff Hinton解释,人脑更能给他们启发。不幸的是,他们都死得太年轻,他们的声音没有被听到。

人工智能开始时,人们绝对相信我们所需要的智能的形式是一种符号主义的形式,不完全是逻辑的,但类似逻辑的东西:智能的本质是推理。现在的观点完全不同:思想只是表示神经元活动的大型向量。我相信那些认为思想可以用符号表示的人犯了一个大错。输入一串字符,输出一串字符,如此,字串成为显而易见的事物表现方式,于是他们认为两种状态之间必然有一个字串,或者类似字串的东西。我认为两者之间的关系与字串无关! 思想只不过是一些大型的,可以表示因果的向量。它们会产生其他大型向量,这和传统的AI的观点完全不同。 “

如果现在新一批的神经网络的使用者少些参考这种认知论,由于他们没有经历过长辈们禁受的排斥和嘲弄,他们将形成一个坚持不懈追求联结主义事业的团体。在输入和输出字串之间需要插入的,不是对思想的编程模型,而是基本单元构成的网络,可以根据输入输出调整参数的网络。 尽可能地,这个网络需要“独自完成一切”,这恰恰需要许多人工的技巧。

联结主义的算法重构

收到John Hopfield工作的启发,他提出通过赋予每个神经元独立更新其价值的能力来修订Perceptron模型,物理学家Terry Sejnowski和英国心理学家Geoff Hinton将在1980年代早期发展用于神经网络的新的多层架构(成为Boltzmann机器),设计者是Nettalk,一个具有三层神经元和18000个突触的系统,能够将文本转换为发声的句子。

但这次复兴的真正亮点是算法的设计,即随机梯度反向传播(《反向传播》),这使得计算系数权重成为可能。除了对Minsky和Papert(1969)的评论之外,作者还表示,当它提供多个层次时,可以简单地训练一个神经元网络;这些附加的神经元层可以用来学习非线性函数。该算法通过获取网络损失函数导数并“传播”误差来修正基础网络(网络下层)的系数,在接近控制论机器的精神中,输出误差被“传播”到输入。

通过一种通用算法来优化所有类型的神经网络,20世纪80年代和90年代是一个非凡的创造性时期,它记录了联结主义的更新。最初成功之一的例子是Yann Lecun创造的,他对AT&T贝尔实验室(Lecun等人,1989)的邮政编码进行了识别,卷积技术就是AT&T贝尔实验室发明出来的。通过使用美国邮政服务数据库,他设法带动多层网络来识别包裹上的邮政编码。

他这种方法的成功,正在成为神经网络在银行业(支票金额)和邮政行业中首次广发的工业用途之一。然后遵循一系列建议来适应更多隐藏层,使地图链接(编码器)复杂化,使优化功能(RELU)多样化,在网络层中集成储存器(循环网络和LSTM),根据网络的无监督和监督学习(信念网络)等部分进行混合 (Kurenkov, 2015 )。用非常具有创意的方式,测试许多以不同方式布线神经元之间关系的架构来探索其属性。

“它不是很突出,但效率更高!”

虽然这些算法为当今深度学习的大多数方法提供了基础,但它们的发明并不是立即成功的。从1995年到2007年,机构支持变得非常罕见,论文在会议上被拒绝,取得的成果仍然有限。 计算机视觉研究人员说:“他们经历了一次寒冬,实际上,在当时,没有人可以运行这些机器。世界上有五个实验室,他们知道,我们跑不了这些机器。” 围绕在杰夫·辛顿,亚·莱卡和约书亚·本焦周围的技术研究者们,形成了一个孤立却团结的小团体,他们主要是给加拿大高级研究所(CIFAR)提供支持。他们的处境变得比1992年的原始技术学习更加困难了,支持向量机(SVM) - 也被称为“核方法”,是非常有效的小数据集。已经处于人工智能禁令之下,联结主义者们发现自己已经处于人工智能学习社区的边缘。

“那时,如果你说你正在做一个神经元网络,你的论文就无法顺利通过。直到2010年,就像这样,一直存在。我记得,LeCun,我们作为被邀请的老师去了实验室,我们不得不全身心投入和他一起吃饭。没有人想去那里。我向你发誓这是很倒霉的事情。他哭了,因为他的论文被CVPR拒绝了,他的东西不够潮流,也不性感,所以大家会去看时髦的东西。他们需要掌握核心,SVM的事情。所以LeCun他说:“我有一个10层的神经网络,它们是并行的。” 他们对他说,“真的假的?你确定吗?有新东西吗?“因为当你提出一个神经网络,这次它有10层,但它没有比别机器的更好。这就很糟糕了!所以他说,“是的(新的),但没有足够的数据!”

在与神经网络的少数推动者相对立的指责中,一个个论证接连不断地被打翻。

“他们(那些SVM的支持者)总是说,”你的东西不是很突出,它只是一瞬间!“另一位研究员说。他们口中只有那个。我们提交了论文,然后他们说:“它不够突出不够优秀!” 他们都是数学很好的人,痴迷于优化,在他们的生活中从没有见过这个东西!多年来,我们都有接触。所以说,我们可以完全不用在意他们。”

由于其非线性构成,神经网络无法保证在损失函数的优化阶段,可以找到整体最小值;它可以很好地聚集到局部最小值。在2005 - 2008年,真正的政策是由一小群的“神经元的阴谋”的开始的(马科夫,2015年,第150页),为了说服机器学习社区,他们也是“<凸>炎症”流行病的患者(LeCun,2007)。所以在2007年,他们的论文被NIPS拒绝,他们组织了一个卫星会议,把与会者用汽车送到温哥华凯悦酒店,捍卫了由SVM最早提出的方法。 Yann LeCun演讲说:“谁害怕非凸函数?” 通过研究了几个结果后得出,神经网络的表现要比SVM好,他认为,线性模型对理论要求的过于接近,无法想象创新的计算架构,并关注其他优化方法。当然,非常简单的随机梯度下降算法并不能保证可以收敛到整体的最小值,但是“当经验证据表明,如果你没有理论上的保证,它只是意味着该理论是不合适的……如果因此,你就不得不将凸性抛出窗外,那太好了! (LeCun,2017,11'19)。

“这些创意总是很疯狂”,这场争议的一位参与者评论道。“最初,对于这群人,这群有创意的人,这是一场骚动。然后直到那些不在人工智能圈子的人的到来。在优化方面,人们已经花了十年时间来寻找一种更巧的凸方法,来解决复杂的问题,但这是非常昂贵的(算力上)。这并不枯燥,但完全干涸了,这方面有成千上万的论文,当大量的数据到来时,所有的机器都不工作了!”

将世界转变为向量

因此,联结主义者将通过实验室的新数据流来选择最佳计算方法,从而改变关于凸性的科学争议。为了面对大数据,用于预测的机器的架构将被转变。这与传统的小型的校准的高度人工的数据集完全不同。因为,在此次争辩中,以大数据为依托,社会和网络服务的发展产生了一些新的工程问题,如垃圾邮件的检测,用于推荐的协同过滤技术,股票预测,信息搜索或社交网络分析。

在这个工业前提下,新的数据科学的统计方法借用并开发了机器学习技术(贝叶斯,决策树,随机森林等)。但是,很显然,面对数据的量和异质性特点,更准确说是“验证”技巧,有必要使用更多的“试探性”和归纳的方法(杜克,1962年)。因此,在与行业接触中(最初是AT&T,然后是谷歌,Facebook和百度),神经网络的阴谋者将遇到问题:计算能力和数据上的,这些问题给他们机会去展示他们的机器的潜力,并将他们的观点加诸科学争议。他们将引出一个新的判准:当这些预测适用于“真实”世界时,预测是有效的。

联结主义者首先要求在争辩中加入自己的术语。他们解释说,有必要区别“浅层”架构(如SVM)的“宽度”与神经元分层架构的“深度”。他们可以证明深度优于宽度:当数据和尺寸增加时,只有深度是可计算的并且可以设法捕获数据特征的多样性。所有凸(函数),因为他们,SVM不能给出大型数据集一个好的结果:维数增长太快,并无法估量,不好的对预测产生了相当大扰动,非线性方法的线性化的解,导致系统失去学习复杂表征的能力(Bengio和LeCun,2007)。

联结主义者设法说服人们,最好是牺牲计算的可理解性,牺牲严格控制的优化,换取对新的数据的复杂性更好的感知。随着训练数据量的急剧增加,存在有许多局部最小值。在机器学习这种紧张争辩的核心中,一个潜台词是无所不在:它实验室里,模型才是线性的,世界,“真实世界”,由之产生的数据图像,声音,文字和文本的数字化,它是非线性的。它是嘈杂的,信息是冗余的,数据流没有被归类为齐次变量的属性,也并不清晰和易于构造,有些样本甚至是错误的。 

“一个AI”,Yoshua Bengio等人写道(2013年),“必须从根本上了解我们周围的世界,而我们认为,这是可以实现的。这就是为什么<深层>架构比<浅层>架构更容易计算和更具“表现力”的原因(Lecun和Bengio,2007)。降低可理解性,让计算器捕捉到更复杂的世界,关于凸性的争论表明,归纳性机器的产出绝不是凭天真的经验, 它是一个大量工作的结果, 有必要说服他们重新看待计算器和世界之间的关系。

此外,为了使这些数据能运用到科学争辩中,有必要从源头上增加科研数据集的大小。

在1988年关于字符识别的文章中,Yann LeCun使用了9,298个手写体的邮政编码。自2012年以来就被用在字符识别的数据库mnist包括了 60, 000个标记为黑白的图像, 每个28像素。它已经证明了神经网络的有效性,但比起其他技术,比如SVM,还是不能赢得支持。另外,科学界将利用互联网的优势,来产生更大的数据集和构建机器学习任务。这种系统的,广泛的,尽可能基础的数字数据捕获,让Hubert Dreyfus的格言更具意义,“世界上最好的模型就是世界本身” (dreyfus, 2007,  p1140)。正如人工智能的异端们长期倡导的那样,代表性存在于世界的数据中,而不是计算器的内部。(布鲁克斯,1988年)。

IMAGEnet的诞生,在这方面堪称典范。

该数据集用于文章最初提出的挑战,由LI Feifei最初建立(Deng et al,2009)。该数据库目前包括1400万个图像,其元素已被手动标注了21841个类,分类基于自动语言处理中另一个经典数据库Wordnet的层次结构。为了完成这项巨大的工作(鉴定各图像,图像的区别在于图中由人工绘制的方块),有必要通过Mechanical Turk, 将众多的任务交给成千上万的标注器。(su et al, 2012; jaton, 2017)。从9298 到1400万个数据,数据量和数据维度天翻地覆。同时伴随的还有计算器功耗的指数增长,这将由并行化计算和GPU的发展解决 (图 6)。

2009年, 显卡上实现了反向传播算法, 从而神经网络的速度提高了 70倍 (raina et al, 2009)。今天有 5 000个样本的分类学习很常见,但这很快就会变成几百万个样本的数据集。数据集的指数增长同样伴随着计算器架构的改变:网络中的神经元数量每2.4年翻一番(Goodfellow et al,2016,p27)。

但是,联结主义者还将采用另一种数据转换,通过执行称为“嵌入”的操作将它们粒化并将其转换为可计算的格式。神经网络要求计算器的输入采用向量的形式。因此,世界必须用纯数字向量的表示形式进行编码。某些对象 (如图像) 自然分解为向量, 而其他对象需要 "嵌入" 矢量空间, 然后才有可能通过神经网络进行计算或分类。这一技术的原型来自文本。为了将单词输入神经网络, word2vec 技术 将单词"嵌入" 到一个向量空间中, 并测量它与语料库中其他单词的距离 (mikolov et al, 2013)。因此,这些词在数百维的空间中有了位置。

这种表示的优点在于这种转换可提供许多操作。在这个空间中位置接近的两个词在语义上也是相似的,我们说这种表示是分布式的:“appartement”的向量[-0.2,0.3,-4.2,5.1 ...]会接近“home”[-0.2,0.3,-4.0,5.1 ...]。语义接近度不是从符号分类推导出来的,而是从文本材料的所有词的统计邻域推导出来的。因此,这些向量可以有利地替换它们所代表的单词以解决复杂的任务,例如文档的自动分类,翻译或自动摘要。因此,连接主义机器的设计者正在进行非常人工的操作,将数据转换到另一个系统。如果说语言处理首创性地将单词“嵌入”向量空间,那么今天我们正在目睹嵌入的全过程,该过程逐步扩展到所有应用程序领域:有了graph2vec,网络成为了向量空间中简单的点,paragraph2vec ——文本,movie2vec——电影,sense2vec——单词含义,mol2vec——分子结构,等等。用Yann LeCun的话说,联结主义机器设计者的目标是将世界变成一个向量(world2vec)。

从模型到架构

因此,必须从计算器中扣除现在由数据多样性和数据量带来的真实的波动。 因此,神经架构的设计者将在计算器中事先“有意”地插入明确的规则,以便预先识别,表征或聚合数据。

“这背后有一种力量,”该领域的一位研究人员说,“ 有一股浪潮,数据浪潮,一股巨大的带走一切的浪潮。 这完全打破了人类建模的所有思想潮流。 我在多个领域工作过,应用,语音,写作,文本,社交数据等,每次我都是做一样的事情。 人们曾有一个时期想将知识放进他的系统中,这种想法已被扫地出门。系统性的! 这已经持续了三十年,逐个领域。 就是这样。 你知道,这很有意思。 与那些一生都相信社会主义政权然后崩溃的人一样......这是同样的事情。”

从2000年代末开始,以一种非常不安定的心情,看到一种没有理论做依托的技术,将取代多年来耐心进行的建模工作,并连续地征服信号,声音,图像和自动翻译的社区。一个领域接着一个领域,神经网络的计算赢在转换到操作网络中的权重分布的效率,这是以前科学活动的主要焦点:特征工程模式识别。这些技术包括“手动”编写算法以识别初始数据的特征。该提取过程通过简化特征与问题或目的之间的关系来促进学习。日益强大的自动化将允许统计机器学习技术获得计算器内部建模器的功能(见上文)。但神经网络正在激化这一运动,从特征提取过程转向所谓的端到端过程:从“原始”数字数据转向样本“标记”。

此举的一个示例是本文开头缩略图中使用的卷积原理。计算机视觉社区已经开发了非常精细的提取方法,以识别图像中的边缘,角落,对比度过渡和兴趣点,并将它们与词袋相关联。这些操作现在由给定的卷积网络的特定结构隐式支持: 将图像铺成小的像素切片, 这些像素被分配到分离的神经元片段, 然后再将它们在另一层组装。而不是建模一只犀牛, 或概括像素块的特点来预测犀牛的形状, 几千张犀牛照片在图像中移动, 身体的一部分被切断, 从角度和不同的位置。

相比不知道如何处理缩放,转换或旋转问题的预处理程序,这能更好地描绘概念 "犀牛" 对神经元的影响。数据与其特征的关系不是需要的, 而是获得的。神经网络做很好的提取特征, 边缘往往被第一层神经元 "看到", 角落是另一个, 元素更复杂的形式在最后, 但这些操作, 没有被明确实施, 这是网络在体系结构约束下出现的效应。

因此,计算“参数”的预处理已转变为计算器的“超参数”的定义。人工建模的部分越少,归纳机器的结构就越复杂。完全连接的神经网络什么都不产生。因此有必要对其进行雕刻,以使其架构适应委托给它的学习任务:隐藏层数,每层神经元数,连接方式,激活函数选择,初始系数,目标函数的选择,向模型显示所有学习数据的次数等。这些设置可能会通过试错调整。

例如,剪枝(pruning),包括移除神经元以查看是否会改变网络的性能,丢弃(dropout), 在学习阶段, 不发送信号输入层中的一些神经元或随机隐藏的层, 以避免过拟合(overfitting) 。这些方法、技巧和工艺规定为社区的许多讨论提供了素材, 并保持了工艺的特征 (domingos, 2012年)。面对特征提取的数学改进,神经网络的生成因而可以被看作黑客的工作,看作一个有天赋的程序员练习黑魔法一般的技能的活动。

“他们,也就是那些与Hinton一起的人,采取了一些措施来完成所有功能的提取以获取原始图像。这很疯狂,因为它是重现的一件事,但是以探索的方式! 他们制造了一个难以想象的复杂系统,他们能够让它们发挥作用。 你从这些人那里拿论文来看,我很害怕,我太老了! 伙计们,他们跟你说话,好像他们是在编程。 他们没有用对我有意义的三个方程进行描述。 

但在5行里,他们会向你描述一个超复杂的东西。 所以,这意味着他创建了一个架构,在这个架构中,他将100个元素彼此放在一起,并且每个元素要连接它们,你有十种可能的选择。 他和它游戏,发动它。 这是一个黑客,这是一个黑客的工作!”

因此,超参数是一个可解释性的新要求可以活动的地方。这些数据不是“自己说话”,而是受制于无法从数据中学习的架构,现在集中了大部分的AI研究。在NIPS会议上,有一篇值得注意的论文,它提出了一个新架构,就像对行星命名一样,研究人员进行了系统地命名,就像一群好奇的动物。通过从模型转向架构,有了表达研究人员创造性的地方,创造性也是他们的设计所需要的技能和品质。

这还为新的数据科学家,黑客和程序员提供开放且易于操作的工具,以进入以前非常封闭的AI生产者领域。通过改变预测机器的架构,联结主义者推动了人工智能的社交世界:首先,因为“真实的”数据集,特别是来自数字行业的数据,已经(部分)取代了学术实验室的“玩具”数据集,还因为,生产联结主义机器所需的专业知识是软件开发的技能,但不是前几代AI需要的开发技能。

归纳的工作

智能机器的发展轨迹刚刚相继在四个背景中进行了总结,显示了它们架构的深刻变革。 这些设备的世界,计算器和视野都经过了深刻的改造,这些组件之间的联系正在塑造那些提供与智能,推理和预测明显不同的定义的设备。

然而,整体动态出现在这个动荡历史中。 计算并制造心灵的唯物主义项目今天已经走上了坚定的联结主义道路。 目前成功的归纳机器只不过是一个术语或已找到的一个“解决方案”。 尽管他们的能力很强,但深度学习技术远远不能满足一般人工智能项目的要求,就像“符号主义者”一直以来的指责。 但是在本文叙述的轨迹中特别指出, 如果不做大量雄心勃勃的工作来改变两者之间的平衡, 这种预测性演算的归纳重组就无法实现。

在计算器的输入上,首先,世界的构成经历了原子化和颗粒化的深刻运动。数据封装组成的关系,全局样式等的许多规律,它们必须由计算器,而不是程序员来识别,因此,归纳工作的第一个特征是以尽可能最基本的形式将数据引入系统数据:像素,而非形式;频率,而非音素;字母,而非字;点击,而非用户声明;行为,而非类别......(Cardon,2017)。数据是否是异质的,冗余的,常常不正确的,这些都不再是问题,每一个新的信号都可以作为构成联结主义机器世界输入的矩阵的新列被添加。

这一整体变动的第二个特征是计算器活动的先验模型的消失(这种现象通常被描述为“理论的终结”(Anderson,2008)),有利于模型的概率在假设空间中越来越大,当考虑到数据的变化维度时,模型的更激进的分布散布在神经元网络的多个层。这是早期人工智能的巨大野心,用于模拟推理,同时为计算机科学研究做出重大贡献。

联结主义机器已经将人工智能的挑战从解决抽象问题、正统认知科学的目标,转变为大量敏感信号中的特征归纳。归纳生成工作的第二个特点是实现了颠覆AI计算系统的条件,以输出程序而不是输入程序。尽管如此,神经网络并没有使“理论”消失。他们只是将其转向计算器架构的超参数,同时让“理论”这一概念少了一些“符号主义”的含义。

这一问题使预测过程的理解和可解释性上的挑战尤其敏感 (burrel, 2016;cardon, 2015)。由于许多工作需要在复杂的系统上完成,毫无疑问, 我们必须学会使可感知的, 适当的和可疑的形式的建模具有更多的属性 (线性,可读性、完整性、经济性等)。在这些属性中,我们使用了——非常 "符号主义" 的——社会科学中模型的<可理解性>的概念。

第三个变动与计算器的视野有关。符号主义AI设计出的智能机器给予了理性和逻辑的预期目标 – 内植于计算的理性,这让AI的推动者认为,机器是“自主的”在联结主义模型中,计算的视野不属于计算器,而是属于给了它有标注样本的世界。输出,由人类产生,符号化和加入了偏差的输出,这些输出组成了联结主义机器最有价值的数据之一。归纳产生工作的第三个特点是通过更新控制论机器反射的自适应预期来建立对世界本身的预测性能: 系统与环境一起计算安装新型的反馈循环。总而言之,面对这些越来越具创新的新机器,我们还不够富有想象力。

相关报道:https://neurovenge.antonomase.fr/RevancheNeurones_Reseaux.pdf

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门神经网络深度学习符号主义联结主义控制论
51
相关数据
约书亚·本吉奥人物

约书亚·本希奥(法语:Yoshua Bengio,1964年-)是一位加拿大计算机科学家,因人工神经网络和深度学习领域的研究而闻名。Yoshua Bengio于1991年获得加拿大麦吉尔大学计算机科学博士学位。经过两个博士后博士后,他成为蒙特利尔大学计算机科学与运算研究系教授。他是2本书和超过200篇出版物的作者,在深度学习,复现神经网络,概率学习算法,自然语言处理和多元学习领域的研究被广泛引用。他是加拿大最受欢迎的计算机科学家之一,也是或曾经是机器学习和神经网络中顶尖期刊的副主编。

沃尔特·皮茨人物

逻辑学家,从事计算神经科学研究。最为人熟知的轶事是他12岁的时候曾在图书馆里度过了三天,阅读《数学原理》,并写信告诉作者罗素书中出现的问题。 他提出了具有里程碑意义的神经活动和生成过程的理论表述,影响了认知科学和心理学、哲学、神经科学、计算机科学、人工神经网络、控制论和人工智能等不同领域。1943 年底,皮茨和沃伦·麦卡洛克共同发表了一篇开创性的论文《神经活动中内在思想的逻辑演算》(A Logical Calculus of Ideas Immanent in Nervous Activity)。本文提出了神经网络的第一个数学模型。这篇文章奠定了人工神经网络的基础,是现代深度学习的前身,其神经元的数学模型:M-P模型一直沿用至今。

沃伦·麦卡洛克人物

美国神经科学家和控制论学者,以其在大脑理论基础上的工作和对控制论的贡献而闻名。他与Walter Pitts一起基于阈值逻辑算法创建了计算模型。

杨立昆人物

杨立昆(法语:Yann Le Cun,英语:Yann LeCun,1960年7月8日-)是一位计算机科学家,他在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献。他最著名的工作是在光学字符识别和计算机视觉上使用卷积神经网络 (CNN),他也被称为卷积网络之父。他同Léon Bottou和Patrick Haffner等人一起创建了DjVu图像压缩技术。他同Léon Bottou一起开发了Lush语言。

诺伯特·维纳人物

1894年-1964年,生于美国密苏里州哥伦比亚,美国应用数学家,在电子工程方面贡献良多。他是随机过程和噪声信号处理的先驱,又提出“控制论”一词。

李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

马文·明斯基人物

马文·李·明斯基,生于美国纽约州纽约市,美国科学家,专长于认知科学与人工智能领域,麻省理工学院人工智能实验室的创始人之一,著有几部人工智能和哲学方面的作品。1969年,因为在人工智能领域的贡献,获得图灵奖。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

Julia技术

Julia 是MIT设计的一个面向科学计算的高性能动态高级程序设计语言,项目大约于2009年中开始,2018年8月JuliaCon2018 发布会上发布Julia 1.0。据介绍,Julia 目前下载量已经达到了 200 万次,且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外,Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库,这极大地扩展了 Julia 语言的使用范围。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

物理符号系统技术

物理符号系统又叫做符号的实体集合构成,它是一台随时间运行处理符号集合结构体的机器。 物理包括了两个重要的特征:这个系统严苛遵从物理规律-系统是由工程系统和工程元件构成,所以这个系统是稳定的;尽管使用符号这个词来表明我们原来的意图,当系统并不局限于人类符号系统。 所谓符号就是模式。任一模式,只要他能与其他模式相区别,就是一个符号。对符号进行操作就是对符号进行比较,从中找出相同的和不同的符号。物理符号系统的基本任务和功能就是辨认相同的符号和区别不同的符号。为此,这种系统就必须能够辨别出不同符号之前的实质差别。符号既可以是物理符号,也可以是头脑中的抽象符号,或者是电子计算机中的电子运动模式,还可以是头脑中神经元的某些运动方式。 一个物理符号系统包含了很多主体,这些主体被称作符号,符号是物理发生在当主体的另外一种类型的组件发生的模式,也叫做表达或者符号结构体。因此一个符号结构体就是关于某一个物理物理方式相关的符号的集合。在任意一个时刻,系统都包含了由许多系统结构组成的集合。除了这些结构意外,系统还包括了用来产生其他表达的操作过程,这些操作包括创造,修改,再生产和销毁。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

联结主义技术

联结主义是统合了认知心理学、人工智能和心理哲学领域的一种理论。联结主义建立了心理或行为现象模型的显现模型—单纯元件的互相连结网络。联结主义有许多不同的形式,但最常见的形式利用了神经网络模型。

逻辑推理技术

逻辑推理中有三种方式:演绎推理、归纳推理和溯因推理。它包括给定前提、结论和规则

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

导数技术

导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x_0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x_0) 或 df(x_0)/dx。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

随机梯度下降技术

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

DENDRAL技术

Dendral是20世纪60年代的人工智能(AI)项目,以及它生产的计算机软件专家系统。其主要目的是研究科学中的假设形成和发现。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

Alex网络技术

AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

贝叶斯网络技术

贝叶斯网络(Bayesian network),又称信念网络或是有向无环图模型,是一种概率图型模型。例如,贝叶斯网络可以代表疾病和症状之间的概率关系。 鉴于症状,网络可用于计算各种疾病存在的概率。

自动摘要技术

自动摘要是指给出一段文本,我们从中提取出要点,然后再形成一个短的概括性的文本。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

语音处理技术

语音处理(Speech processing),又称语音信号处理、人声处理,其目的是希望做出想要的信号,进一步做语音辨识,应用到手机界面甚至一般生活中,使人与电脑能进行沟通。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

控制论技术

控制论是一门跨学科研究, 它用于研究控制系统的结构,局限和发展。在21世纪,控制论的定义变得更加宽泛,主要用于指代“对任何使用科学技术的系统的控制”。由于这一定义过于宽泛,许多相关人士不再使用“控制论”一词。 控制论与对系统的研究有关,如自动化系统、物理系统、生物系统、认知系统、以及社会系统等等。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

推荐文章
大胆一猜,本文前五分之一是导师翻译的,接着的五分之一是硕士翻译的,再接着五分之一是本科生用度娘翻译的。
2