MIT教授Tomaso Poggio演讲与专访:智能背后的科学与工程

3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流。腾讯AI Lab还宣布了2018三大核心战略,以及同顶级研究与出版机构自然科研的战略合作(点击 这里 查看详情)。


腾讯AI Lab希望将论坛打造为一个具有国际影响力的顶级学术平台,推动前沿、原创、开放的研究与应用探讨与交流,让企业、行业和学界「共享AI+未来」。


嘉宾介绍



3月15日上午,麻省理工学院大脑与认知科学系Eugene McDermott 教授,大脑、心智和机器中心(CBMM)主任Tomaso Poggio教授做了主题为“智能背后的科学与工程(The Science and Engineering of Intelligence)”的演讲。


Poggio教授是计算神经科学领域巨匠,研究领域涵盖视觉系统的生物物理和行为、人类和机器的视觉和学习的计算分析。他的研究极富开拓性,是被引用最多的计算神经科学家之一。他的两位前博士后 Demis Hassabis和Amnon Shashua 分别是 DeepMind 和 Mobileye 的创始人。


演讲内容


在本演讲中,Tomaso Poggio介绍了AlphaGo和Mobileye这两大人工智能领域近期取得的成就,并介绍到其成功是建立在深度学习强化学习这两种受神经科学启发的算法基础上的。但若要创造与人类同等聪明的人工智能,还需更多突破。本演讲讨论了这些突破可能是什么,并且源自何处。


演讲在硬件层面上,介绍了MIT大脑、心智和机器中心(CBMM)的研究项目、合作成果等,比如与不同研究中心的合作,在《科学》和《自然》杂志上发表的研究成果,组织课程,登月(moonshot)项目,对心理物理学的研究实验等。具体说明了树突树的生物物理性质能表现出比当今的 ReLU更强大的非线性,而在计算层面上,视觉智能的基本方面需要超越监督学习和无监督学习的架构。


以下为演讲全文(为便于阅读进行过适当编辑整理):


今天我会谈一下智能背后的科学和工程。我在MIT进行过很多研究,但是我今天没有时间过多谈及这些。我会谈谈 MIT 最近推出的一项名叫 Intelligence Quest 的计划。然后我会谈谈其后的历史以及我们一些深度学习之外的研究。


首先让我谈谈大家都已知道的故事——最近人工智能领域的一些成功故事,从 Atari 游戏到 AlphaGo到单样本学习再到无人驾驶等等。其中一些重大成果是由 DeepMind 和 Mobileye 这两家创业公司实现的。有意思的是,这两家公司的创始人 Demis Hassabis 和Amnon Shashua都曾是我的博士后学生。前者推动实现了 AlphaGo,后者则创立了 Mobileye。这两项研究成果背后的核心技术分别是强化学习深度学习。而这两种都源自神经科学



大家看一下这段有趣的视频。这个项目从1995年开始做的,是我们和戴姆勒-奔驰的一个合作项目,也是最早将深度学习应用于计算机视觉的项目之一。当时我们训练这个系统的目标是让整个系统能识别出周围的环境和物体。





这里的视频非常清晰地展示出了我们这个系统的工作方式。这段视频拍摄自德国南部乌尔姆,这里是爱因斯坦的出生地。可以看到系统在最后几帧出现了一些错误,比如错误分类了交通信号灯和行人。当时的错误率是每三帧一个错误,也就是每秒钟出现十个错误。科学家虽然对此感到高兴,但这是无法实现实际应用的。而现在 Mobileye 的系统在同样的任务上每30千米的驾驶距离才会出现一个错误,准确率好了大约100 万倍,也就是这 20 年来平均每年都提升一倍,这样的进步是非常明显的。



回到我的主题,深度学习强化学习都源自神经科学强化学习的早期起源是巴甫洛夫对心理学和动物行为的研究,然后 Donald Hebb 最早提出将强化学习应用于机器和计算机。之后,Marvin Minsky 在 50 年代开发了一个名叫 SNARC 的系统,可以像老鼠一样去解开迷宫问题。上图右上角是这个系统的一个神经元,里面有一些真空管。然后我们看到 Hubel 和 Wiesel 在 60 年代在哈佛对神经架构的研究。之后还有很多科学家和研究者推动了这一领域的研究发展,让我们了解了大脑中的一些结构。这些研究成果为今天的深度卷积神经网络奠定了基础,比如图中所示的 ResNet。


那么机器学习的下一个关键突破点在哪里?从历史上看,最早的成果就是来自神经科学,下一个应该还是来自神经科学或认知科学。



接下来谈谈我们自己的工作。我们在 8 年前启动了MIT Intelligence Initiative,之后变成了大脑、心智和机器中心(CBMM)。我是该中心的主任。这是 NSF(美国国家科学基金)超过 5000 万美元的十年资助项目之一(2013~2023 年)。现在我们有了 MIT Intelligence Quest,它会为MIT的所有部门提供智能技术,比如生物系。我们的核心目标是纯粹的智能研究,而且研究领域涵盖科学和工程。我们中心的目标就是在智能问题上取得一些进展。


我相信智能问题不仅是一些科学问题的核心,比如宇宙的起源、生命的起源、时空结构等等;而且也是我们所有问题中最大的问题,因为只要我们在这一问题上取得进展,就能够让我们自己变得更加智慧,让机器变得更加智能。我们就能够快速地解决其它问题。此外,智能也是唯一一个可以在自然科学领域(包括神经科学、生物学、化学和物理学等)和工程技术领域(包括计算机科学和数学)同时探索的学科。所以这是唯一一个你可以同时获得图灵奖和诺贝尔奖的学科。


这不仅是科学技术的组合,也涉及到人与人的合作。MIT 和腾讯、IBM、微软、谷歌等机构在科学和工程上都有良好的合作,这是MIT十分独特的一面。



我们有来自不同研究中心的合作伙伴,其中有神经科学专家、计算机科学专家、认知科学专家。我们还有工业界的一些合作伙伴,有大公司也有小公司,比如 DeepMind、波士顿动力、Mobileye(我最近也加入了这家公司)。我们还有一个顾问委员会,有一些这个领域的主要科学家和我们合作。



研究成果方面,我们 2017年在《自然》和《科学》杂志上发表了很多论文,数量超过 DeepMind 等机构。这不足为奇,因为我们非常专注于智能科学的研究。



我们在过去四年里还组织了一些课程。我们想培养出新一代的科学家,他们不仅将擅长机器学习,也会有计算机科学、神经科学、认知科学等学科的研究经验。在这方面我们做得非常成功,并还将继续努力进行下去。


接下我谈谈我们在深度学习之外的研究。这是我们其中一个登月(moonshot)项目,我们希望借此了解我们的视觉智能。人有能力看到自己周围的东西,能够回答与此相关的近乎无限多的问题,比如这张图:



我们可以看到这个场景中有多少桌子、坐了多少人、谁在说话、哪些位置是空闲的,你还知道需要绕过哪些障碍物才能到达目标。


我们是如何做到的呢?我们看看视觉系统底层的架构。可以看到视觉流流入大脑中的视觉区域,再进入大脑皮质中的特定区域,我们称之为大脑操作系统(Brain OS),这是大脑的推理中心,里面可以用很小的程序实时地回答任何问题。



在我们的认知系统和物理世界的交互中,我们就产生了对世界的认识,理解了我们和世界的关系。这就是笛卡尔所说的“我思故我在”。这就是我们感知周围世界的方案。我们正在努力通过神经科学和认知科学解答这些问题,当然也可能使用计算机模拟这个系统。


这是我们的登月项目之一。我要谈谈它的一个应用,这个应用也在反过来推动相关研究。我们知道,人的视觉感知中有很大一部分是幻觉。我们人眼中的视觉感知非常依赖于偏心距(eccentricity),所以我们一次只能注意到一定距离一定角度内的事物(手臂长度大约为拇指宽/1度),其它内容都要靠我们脑补,是根据我们注意到的不同位置的图像融合起来的。进入我们眼睛的可能是一张高分辨率图像,但实际上我们感知注意到的是一系列低分辨率图像。



这是我们的眼睛。




光从左边进入眼睛,晶状体将其汇聚到眼睛后部的感受器上。这个感受器会和视网膜神经节细胞通信,得到信息。合在一起就是我们所说的视觉神经。这些信号最后会被传递给大脑中的视觉皮层。光感受器很密集,但感受野只有一小块区域。我们可以看到一个有趣的现象,视觉皮层的感受野的大小与光感受器的大小(也就是偏心距灵敏度)有关。这是来自 Hubel 和 Wiesel 的旧数据,展示了凝视视角与偏心距的关系。




可以看到,在所有的视觉区域,视觉范围会随偏心距增大。我们对采样有一些推理得到的理论解释。底部的感受野通常大小为40×40,在上面有更大的感受野。小一点的感受野也许覆盖了更小的角度,上面大一点的覆盖了 5 度视觉角度。这样的安排,就能自动应对大小和尺寸的改变以及不同的位置。这意味着对以前没有看到的物体,比如你的脸,如果我向其它位置走一段距离,我仍然能认出那是你的脸。人的视觉能够应对这种变化。这个发现很重要,具有革命性,可以在计算机视觉上得到应用。



最近,我们还研究了心理物理学(psychophysics)。我们用韩语字符测试了不认识韩语的受试者。我们将两套韩语字符用不同的大小或在不同的位置呈现,然后问受试者这些字符是不是一样的。这些字符的呈现速度很快,所以受试者不能移动他们的眼睛。可以看到我们测试了不同的距离(大小)和角度。如果我们去模拟这样的过程,或许就可以做出非常好的深度学习模型。



看看我们的实验结果。左边是基于偏心距的现代深度学习模型,可以看到偏心距对准确度的影响不大(就像之前的心理物理学实验一样)。右边是普通的深度学习模型。因此,这就为我们带来一种基于偏心距的策略,这种策略非常依赖于移动你的眼睛。这决定了我们能更轻松或更难以识别出某些物体。



我再回过来谈一谈深度学习的问题。深度学习有个奇怪的地方:它非常成功,但我们不知道为什么。我们至少有三个理论问题需要解答。第一个是近似理论问题:深度网络何时以及为什么比只有一个隐藏层的浅网络更好?第二问题是关于优化。第三问题是关于学习的泛化能力。


对于这三个问题,我们有一些答案。我们知道,八十年代以来,浅和深度网络都可以实现输入和输出之间的映射。但它们都面临着维度灾难(curse of dimensionality)的问题,也就是说所需参数的数量会随着数据的维度指数级增长。



现在,对于某些我们称之为局部组分函数(local compositional function)的特定类别的函数,虽然浅网络的参数数量还是会随维度而指数增长,但深度网络的参数只会随维度线性增长,从而能够避开维度灾难。这也是深度网络相对于浅网络的一个优势。




时间有限,对于其它两个问题我就简单谈谈。对于第二个问题,如果对深度网络采用标准的使用方法,通常需要非常多的参数,有时候这些参数权重的数量会超过训练集中数据点的数量。比如,对于 CIFAR,可以有 30 万个权重,而图像只有 6 万张。这样你事实上就会有无穷多个解决方案,所以不难找到一个。


第三个问题更重要:为什么训练后的深度网络能泛化到新的数据上呢?答案和动态系统的性质有关,涉及到梯度下降



分类任务的特定性质与深度网络很契合,但分类任务只是智能任务中的一部分。现在整个科学界都在努力建立全面且优雅的深度学习理论。总而言之,我认为深度网络并不是智能的最好解决方案,可能只能解决10% 的智能任务。我们要基于神经科学和认知科学来寻找更好的解决方案。


谢谢!



延伸阅读



三月,受腾讯 AI Lab 学术论坛邀请,机器之心在深圳采访了深度学习理论研究著名学者 Tomaso Poggio。他以平直易懂的语言介绍了自己的「长篇系列工作」,也谈了谈他对理论指导实践以及仿生学指导深度学习算法发展等观点的看法。


本文为机器之心原创,作者为邱陆陆,转载请联系公众号获得授权。


Tomaso Poggio 的知名度,有相当一部分来源于他异常出色的导师身份:DeepMind 创始人及 CEO Demis Hassabis 和 Mobileye 创始人及 CTO Amnon Shashua,都是他的学生。这两家公司一个创造出了击败了围棋世界冠军、重新定义这个项目的 AlphaGo,另一个将辅助驾驶系统装进了全球超过 1500 万辆车里,制造了世界上第一款能在终端进行深度神经网络推理的量产车型的系统。Poggio 本人不仅鼓励他的学生们以创业的形式将深度学习带进现实世界,也亲身投入指导了这两家公司的早期创立。


然而在学术界,Poggio 的知名度更多来自于他的深度学习理论研究。他的论文非常好辨认——命名方式简单粗暴如同长篇系列小说的就是他,《深度学习理论 II》,《深度学习理论 IIIb》…… 



这个编号系统来自他对深度学习理论问题进行的拆分:在 Poggio 看来,深度学习理论研究问题分为三类:


 • 第一类是表达(representation)问题:为什么深层网络比浅层网络的表达能力更好?

 • 第二类是优化(optimization)问题:为什么 SGD 能找到很好的极小值,好的极小值有什么特点?

 • 第三类是 泛化(generalization)问题:为什么参数比数据还多,仍然可以泛化、不过拟合


对于每一类问题,他都尝试以应用数学工具为基础,通过举出能够用数学语言进行描述的例子然后给出解释的方式,用理论推导(也辅以一定的实验验证)来说明自己的观点。


深层网络表达组合函数的超强能力


早在 2002 年,Poggio 和著名数学家 Steve Smale 就合著了一篇论文[1],总结了那些经典学习理论,它们的共同点是,都相当于具有单一隐藏层的网络。Poggio 是这样解释他研究「表达」的初衷:「当时我们就提出了一个问题:为什么大脑具有很多层?为什么当传统理论告诉我们使用单层网络的时候,大脑的视觉皮层其实在用许多层解决这一问题?」


毫无疑问,目睹了深度网络的成功后,同样的问题再一次被摆上了台面。


Poggio 认为,事实上无论是深层网络还是单层网络,都能相当不错地近似任意连续函数——这也是上世纪 80 年代的学者们通常忽略多层网络而采用单层网络的原因。但是,问题的核心在于表达清楚一个函数所需要的维度:单层网络需要的单元数非常多,甚至比宇宙中的原子数还要多。这就是数学上所说的「维度灾难」:参数的个数需要是方程维度的指数倍


为了跳出维度灾难,过去的数学家尝试假设方程的光滑性:他们发现,维度灾难取决于「维度除以光滑性」。而深度学习给出了针对一类特定函数的独特方法:如果近似的对象是一个组合函数,换言之,是一个函数嵌套函数的大函数,那么深度网络拟合它所需的单元数和函数的维度是线性关系。换言之,无论维度多大,深度网络都能够摆脱维度灾难来拟合这个函数。


现在,能够被深度神经网络很好地拟合的数据都具有组合函数的特点。以图像为例,想要分类一张图像,并不需要同时观察左上角和右下角两个相距甚远的像素,只需要观察每一小块,再将它们组合在一起。有了这种「组合」(compositional)的性质,当卷积神经网络被用来刻画图像,甚至不需要参数共享的帮助,就能轻易摆脱维度灾难。


而那些现在还不能被神经网络刻画得很好的数据,通常都不是组合函数。但是知道「组合函数和神经网络很配」还远远不够,Poggio 说,「作为计算机科学学者,甚至作为数学家,我们能不能进一步解释一下组合函数,给出一些比『它是组合的』更明确的性质,从而更好地理解神经网络的工作机制。这对于我来说也是一个非常有趣的、希望更多研究者投入精力的开放问题。」


优化的致胜:取之不尽的参数和性质漂亮的 SGD


解线性方程组的时候,如果未知量的数量大于方程数,我们将收获很多解。


神经网络处理数据的时候,以图像举例子,包含 6 万张训练数据的 CIFAR 数据集,通常会用一个包含数十万乃至上百万参数神经网络进行处理——一个教科书般的过参数化(overparameterization)例子。


神经网络近似看成一个多项式——把每个具有非线性的小单元都用一个单变量多项式替代,得到一个由数十万乃至上百万多项式组成的大多项式,此时,想要在 CIFAR 上获得 0 训练误差,就转化成了一个解 6 万个线性方程的问题。根据贝祖定理(Bézout's theorem),此时的解的数量比宇宙中的原子数量还多。另外,参数多于数据量带来了「退化」(degenerate)性质:每一个解都对应着一个无限大的解集。


因此,参数化意味着,神经网络有无限多个退化的全局最优解,它们在损失空间里形成平坦的谷地


而众所周知,随机梯度下降(SGD)的特性就是会以较高的概率倾向于停留在退化的谷地里,即,停留在全局最优解上。二者的结合,就让神经网络的优化变得轻松:确定有全局最优、有很多,它们的特征明显,很容易被优化算法找到。


就算过拟合也能泛化:分类问题交叉熵的绝妙搭配


参数化是优化的福音,同时也是泛化的噩梦。在经典机器学习里,随着优化进行,测试错误率会呈现一条先减后增的 U 型曲线,尤其是模型规模与数据规模不匹配的时候,后半段的过拟合是十分可怕的。


然而在深度学习里,泛化错误率却经常呈现一个「下降,然后停住不动」的态势,即使不是零,也能保持在一个相当低的水准上。


Poggio 对此的解释是:这是深度学习所进行的任务与所用的损失函数之间的特定组合带来的美好化学反应。


具体来说,就是大多数神经网络都是用来解决分类问题(而不是回归问题)的,错误率通常以 0-1 损失计算,而目标函数却通常是交叉熵


这种差异是因为 0-1 损失函数是好的效果衡量指标,却并不适合做优化的目标函数。拿手写数字分类器举例,神经网络分类器最后是通过 softmax 转 hardmax 来选择分类类别的,这也就意味着,即使模型认为一张「1」的图像是「1」的概率只有 30%,但只要这 30% 是所有 10 个可能性中最高的,模型仍然会将这张图像分类为「1」。一个信心水平只有 30% 的模型,即使分类正确,也远称不上一个好模型,需要继续优化。但是,如果选用 0-1 损失函数作为目标函数,只要分对了,该样本的损失就是 0 了,没办法计算梯度,也自然没办法进行反向传播来优化参数


选用交叉熵损失函数就没有这个烦恼,你可以一直优化到信心水平无限接近 100%。


交叉熵函数与 0-1 损失这对组合的奇妙之处在于,即使测试集上的交叉熵过拟合了,分类误差也不会过拟合


几个月前,芝加哥大学的 Srebro 组的工作 [2] 证明了:对于单层线性网络来说,如果数据集噪声较小、可分,那么即使交叉熵过拟合了,分类误差也不会过拟合


「这是一个非常优美的,角度独特的工作。在此之上,我们用微分方程动力系统理论的工具证明了,在全局最小值附近,深度网络表现得就像一个线性网络。因此,我们可以将 Srebro 工作的结果用在深度学习上,说明即使神经网络分类器的交叉熵过拟合了,分类器本身也不会过拟合。」


交叉熵的这一性质是最小平方误差(least square error)等其他损失函数所不具备的,拥有这一性质的最简单的损失函数是指数误差(exponential loss)。而当我询问究竟是交叉熵的哪些特质让它拥有了如此特别的性质,是否和它的不对称性有关,Poggio 表示这仍然是一个有待讨论的问题。


以上就是 Poggio 的「深度学习理论三部曲」的内容概要了,详情请参阅 [3-7]。


除了他的工作本身,我们也和他聊了一些关于深度学习理论工作的其他问题:


平坦的极小值意味着好的泛化能力吗?一个观点转变


关于极小值的形状与泛化之间的关系,Poggio 说,他的观点转变了:「确实有学者在工作中表示,平坦是有利于泛化的。大概一年多以前我也曾经发表过类似的观点,但是我现在不再这么认为了。」


在关于优化的研究中,Poggio 证明了平坦确实会让优化过程变得容易,平坦的最小值也有更大可能是全局最小值。「但是我不觉得它和泛化之间有直接的联系,起码现在没有。如今对于泛化能力的研究,依赖于分类问题、依赖于损失函数的选择,却不依赖于平坦。Bengio 兄弟两人都参与的一篇论文就证明了,陡峭的极小值也是可以泛化的 [8],因为你完全可以通过改变不同层的参数,在不改变网络的输入输出关系的前提下,让一个平坦的极小值变得陡峭。」


另外,他也认为完全平坦的极小值是不存在的,起码对于现在这种以多项式网络为基础添加非线性的神经网络来说,是不存在的。「我们都知道,一旦多项式在一个解集上都为 0,那么这个多项式处处为 0,因此,我不觉得存在完全平坦的极小值了。」


对应用侧的建议:小心过拟合


致力于应用深度学习算法的工程师们最经常对深度学习的理论研究者提出的一个问题就是:「你的工作很棒,但请问这能如何帮助我训练我的模型?」了解更多的理论知识当然具有启发意义,但是理论研究范围广阔且往往十分艰深,究竟哪些理论研究有助于应用开发者,应用开发者应该了解理论到何种程度?


机器学习里的无免费午餐定理No Free Lunch Theorem),也就是 Wolpert 在 1996 和 1997 年发表的两篇著名论文里 [9, 10] 所提到的,学习算法之间没有先验区别,对于任何两个算法 A 和 B 来说,都存在一样多的两堆目标,对一堆目标来说 A 的检验误差比 B 高,对另一堆来说 B 的检验误差比 A 高。Poggio 援引了无免费午餐定理到理论研究中:不存在一个适用于所有问题的算法,类似地,也很难给出一个普适性正确的理论陈述。


「理论通常给出的是通常情况或最坏情况的分析,他们给出建议,告诉你应该做/不做什么,以避免最坏情况的发生。但是理论无法告诉你,对于一个特定案例来说,最佳方案是什么。」


而他对今天的深度学习应用者的建议是,小心过拟合


「在过去几十年的机器学习发展史中,我们学到的一课是,如果你的数据集没有大到排除过拟合可能性,那么在一个特定数据集上的最佳方法通常是过拟合的、无法扩展到其他数据集上的。并不是说学者们『偷看』了验证集测试集,而是当一个社区的学者都在用不同的方法进行试错,那么一段时间后的最佳做法通常是过拟合了这个特定数据集的。」


「我曾经是一名物理学研究者,在我的学生时代,最普遍的经验法则是,如果你想建立一个参数为 n 的模型,那么至少要有规模为 2n 的数据,如果你想从统计的角度得出一些结论,更为推荐的数据规模是 10n。然而现在的深度学习研究者倾向于对所有问题都套用有数百万参数的模型。我们得出的『深度学习模型不受过拟合困扰』的论证只适用于特定问题(分类)、且要求数据集质量良好(可分),因此深度学习研究者应该对过拟合持有更谨慎的态度。」


如何看待先验?理论研究能够告诉我们哪些关于先验的结论呢?


人是很好的学习者,既不需要数百万数据,也不需要数据有标签,而这部分取决于我们与生俱来的、写在基因里的先验知识。然而,关于先天与后天(nature versus nurture)的争论从未停止。


「模型需要多少先验,是一个不能一概而论的、没有简单答案的问题。」Poggio 总结道,「理论研究的目的是找到能够做出特定预测所需的先验的下限。」


他以回归问题举例,「对于给定一些数据点来恢复一条曲线的任务来说,如果你什么都不告诉我,那么除非给我曲线上的所有点,否则我基本上什么也做不了。连续是一个必须的先验,但这还不够。我起码需要类似平滑(smothness)这样的性质,才能进行预测。而最重要的还是数据量,样本复杂度和先验之间,存在一个权衡取舍的关系。」


深度学习能从人脑的学习过程中学到什么?


三十年前,「深度学习之父」Geoffrey Hinton 用利于优化且计算高效的「反向传播」将整个领域带入了高速发展,而近年来,他则致力于寻找比反向传播更有可能在仿生学(bionics)上成立的结构。


MIT 对于深度学习的研究素来与脑神经科学结合紧密,Poggio 是如何看待这一问题的呢?


「我认为从生物学上完成反向传播并非完全不可能(not impossible),只能说,根据我们现在对神经元以及信号传递机制的了解,可能性不大(unlikely)。然而我认为真正不可能的是对所有样本的标注。」


「因此一个有趣的研究课题是,大脑是如何『绕开』标注的。例如,一个有趣的假设是,我们的视觉系统是以学习给图像『填色』来进行预训练的,它接收到了颜色信息,却只给其他视觉皮层以黑白的灰度信息,以此训练一个能够预测颜色的网络。在这个设定下,你不需要『神谕』(oracle)来告诉你真实的颜色是什么,你是有这部分信息的,只不过通过把它藏起来而建立了一个可以进行优化的模型。」


「类似的假设还有,大脑在不断地预测下一帧影像并进行优化等等。而能够预测颜色的、预测下一帧影像的视觉系统,是不是能够更好地进行其他视觉任务呢?是不是能够利用更少的数据就能学会识别物体呢?这都是有趣的开放问题,而且一旦得到答案后,将对深度学习产生巨大的推动。」

入门Tomaso Poggio神经科学
相关数据
神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

分类问题技术
Classification

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

阿尔法围棋技术
AlphaGo

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术
Convolutional neural network

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

交叉熵技术
Cross-entropy

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

人机交互技术
Human-computer interaction

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

梯度下降技术
Gradient Descent

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

损失函数技术
Loss function

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经元技术
neurons

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

过拟合技术
Overfitting

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

神经科学技术
neuroscience

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

无免费午餐定理技术
No Free Lunch Theorem

该定理在机器学习算法中的体现为:在没有实际应用场景/背景的情况下,没有一种算法比随机胡猜的效果好。

先验知识技术
prior knowledge

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

目标函数技术
Objective function

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

随机梯度下降技术
Stochastic gradient descent

梯度下降(Gradient Descent)是遵循成本函数的梯度来最小化一个函数的过程。这个过程涉及到对成本形式以及其衍生形式的认知,使得我们可以从已知的给定点朝既定方向移动。比如向下朝最小值移动。 在机器学习中,我们可以利用随机梯度下降的方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。 这种优化算法的工作原理是模型每看到一个训练实例,就对其作出预测,并重复迭代该过程到一定的次数。这个流程可以用于找出能导致训练数据最小误差的模型的系数。

验证集技术
Validation set

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

权重技术
Weight

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

马文·闵斯基人物
Marvin Minsky

马文·李·明斯基,生于美国纽约州纽约市,美国科学家,专长于认知科学与人工智能领域,麻省理工学院人工智能实验室的创始人之一,著有几部人工智能和哲学方面的作品。1969年,因为在人工智能领域的贡献,获得图灵奖。

腾讯AI实验室
腾讯AI实验室

机器之心编辑

腾讯AI实验室
返回顶部