张倩 晓坤编译

深度学习局限何在?图网络的出现并非偶然

本文近日发表在 PNAS 上,讨论了深度学习取得的成就、推动条件和广泛存在的问题,并从「补充」而不是「推翻」的论点探讨了如何改进人工智能研究方法的方向。文中引用了大量的 DeepMind 发表过的论文,基本思想是提倡延续上世纪 80 年代的符号 AI 方法论,将深度学习结合图网络等实现完整的类人智能。

本文作者 M. Mitchell Waldrop 是威斯康星大学基本粒子物理学博士,曾担任 Nature、Science 等顶级期刊撰稿人、编辑,出版过《复杂》等科学著作。

上图中是一根香蕉,然而人工智能却将其识别为烤面包机,即使它使用了在自动驾驶、语音理解和多种 AI 应用中表现出色的强大深度学习技术。这意味着 AI 已经见过了几千张香蕉、蛞蝓、蜗牛和类似外观的物体,然后对新输入的图像预测其中物体的类别。然而这种系统很容易被误导,图像中只是多了一张贴纸,就让系统的预测产生严重偏离。

深度学习方法中的明显缺点引起了研究员和大众的关注,如无人驾驶汽车等技术,它们使用深度学习技术进行导航,带来了广为人知的灾难事件。图片来源:Shutterstock.com/MONOPOLY919。

上述这个被深度学习研究者称之为「对抗攻击」的案例是由谷歌大脑提出的,它暗示着 AI 在达到人类智能上仍有很长的路要走。「我最初认为对抗样本只是一个小烦恼,」多伦多大学的计算机科学家、深度学习先驱之一 Geoffrey Hinton 说:「但我现在认为这个问题可能非常重要,它告诉我们,我们到底做错了什么。」

这是很多人工智能从业者的同感,任何人都可以轻易说出一长串深度学习的弊端。例如,除了易受欺骗之外,深度学习还存在严重的低效率问题。「让一个孩子学会认识一头母牛,」Hinton 说,「他们的母亲不需要说'牛'一万次」,但深度学习系统学习『牛』时需要这么多次。人类通常仅从一两个例子中就能学习新概念。

然后是不透明问题。深度学习系统训练好之后,我们无法确定它是如何做出决定的。「在许多情况下,这是不可接受的,即使它得到了正确的答案,」计算神经科学家、负责剑桥 MIT-IBM Watson AI 实验室的 David Cox 说。假设一家银行使用人工智能来评估你的信誉,然后拒绝给你一笔贷款,「美国多个州的法律都规定必须解释其中的原因,」他说。

也许这里面最重要的就是缺乏常识的问题了。深度学习系统可能在识别像素分布的模式上很擅长,但是它们无法理解模式的含义,更不用说理解模式背后的原因了。「在我看来,当前的系统还不知道沙发和椅子是用来坐的,」DeepMind 的 AI 研究员 Greg Wayne 说。

深度学习暴露的越来越多的弱点正在引起公众对人工智能的关注。特别是在无人驾驶汽车领域,它们使用类似的深度学习技术进行导航,曾经导致了广为人知的灾难和死亡事故。

尽管如此,无可否认,深度学习是一种非常强大的工具。深度学习使得部署应用程序(例如面部识别和语音识别)变得非常常见,这些应用程序在十年前几乎不可能完成。「所以我很难想象深度学习会在这种时候被抛弃,」Cox 说。「更大的可能是对深度学习方法进行修改或增强。」

大脑战争

今天的深度学习革命的根源在于 20 世纪 80 年代的「大脑战争」,当时两种不同的人工智能流派相互争执不休。

一种方法现在被称为「老式的 AI」,自 20 世纪 50 年代以来一直占据着该领域的主导地位,也被称为符号 AI,它使用数学符号来表示对象和对象之间的关系。加上由人类建立的广泛的知识库,这些系统被证明在推理方面非常擅长。但是到了 20 世纪 80 年代,人们越来越清楚地认识到,符号 AI 在处理现实生活中的符号、概念和推理的动态时表现得非常糟糕。

为了应对这些缺点,另一派研究人员开始倡导人工神经网络或连接人工智能,他们是当今深度学习系统的先驱。这种系统的基本思想是通过传播模拟节点(人脑中神经元的类似物)网络中的信号来对其进行处理。信号沿着连接(突触的类似物)从节点传递到节点。类似于真实的大脑,学习是调整可放大或抑制每个连接所携带信号的「权重」的问题。

在实践中,大多数网络将节点排列为一系列层,这些层大致类似于皮层中的不同处理中心。因此,专门用于图像的网络将具有一层输入节点,这些节点对单个像素做出响应,就像视杆细胞和视锥细胞对光线照射视网膜做出响应一样。一旦被激活,这些节点通过加权连接将其激活级别传播到下一级别的其它节点,这些节点组合输入信号并依次激活(或不激活)。这个过程一直持续到信号到达节点的输出层,其中激活模式提供最终预测。例如,输入图像是数字「9」。如果答案是错误的,例如说输入图像是一个「0」。网络会执行反向传播算法在层中向下运行,调整权重以便下次获得更好的结果。

到 20 世纪 80 年代末,在处理嘈杂或模糊的输入时,神经网络已经被证明比符号 AI 好得多。然而,这两种方法之间的对峙仍未得到解决,主要是因为当时计算机能拟合的人工智能系统非常有限。无法确切知道这些系统能够做什么。

AI 的「神经网络」模型通过类似于神经元的节点网络发送信号。信号沿着连接传递到节点。「学习」会通过调整放大或抑制每个连接所承载信号的权重来改善结果。节点通常以一系列层排列,这些层大致类似于皮质中的不同处理中心。今天的计算机可以处理数十层的「深度学习」网络。图片来源:Lucy Reading-Ikkanda。

算力革命

这种理解在 21 世纪得到变革,随着数量级计算机的出现,功能更加强大的社交媒体网站提供源源不断的图像、声音和其它训练数据。

Hinton 是反向传播算法的联合提出者,也是 20 世纪 80 年代连接主义运动的领导者。他和他的学生们不断尝试训练比以前更大的网络,层数从一个或两个增加到大约六个(今天的商业网络通常使用超过 100 层的网络)。

2009 年,Hinton 和他的两名研究生表示,这种「深度学习」在语音识别上能够超越任何其它已知的方法。2012 年,Hinton 和另外两名学生发表了论文,表明深度神经网络在图像识别上可能比标准视觉系统好得多。「我们几乎将误差率减半,」他说。在这之后,深度学习应用的革命开始了。

研究人员早期更加关注扩展深度学习系统的训练方式,Matthew Botvinick 说。他在 2015 年从普林斯顿的神经科学小组离开,学术休假一年,进入 DeepMind,从那时起一直没有离开。语音和图像识别系统都使用了监督学习,他说:「这意味着每张图片都有一个正确的答案,比如猫的图像的类别必须是'猫'。如果网络预测错误,你就告诉它什么是正确的答案。」然后网络使用反向传播算法来改进其下一个猜测。

Botvinick 说,如果有精心标记的训练样例,监督学习的效果会很好。但一般而言,情况并非如此。它根本不适用于诸如玩视频游戏等没有正确或错误答案的任务,其中仅有成功或失败的策略。

Botvinick 解释说,对于那些情况(事实上,在现实世界的生活中),你需要强化学习。例如,玩视频游戏的强化学习系统学会寻求奖励,并避免惩罚。

2015 年,当 DeepMind 的一个小组训练网络玩经典的 Atari 2600 街机游戏时,首次成功实现了深度强化学习。「网络将在游戏中接收屏幕图像作为输入,」随后加入该公司的 Botvinick 说,「在输出端有指定动作的图层,比如如何移动操纵杆。」该网络的表现达到甚至超过了人类 Atari 玩家。2016 年,DeepMind 研究人员使用掌握了相同网络的更精细版本的 AlphaGo 在围棋上击败了人类世界冠军。

深度学习之外

不幸的是,这些里程碑式的成就都没有解决深度学习的根本问题。以 Atari 系统为例,智能体必须玩上千轮才能掌握多数人类几分钟之内就能学会的游戏。即便如此,网络也无法理解或解释屏幕上的拍子等物体。因此 Hinton 的问题也可以用在这里:到底哪里还没做好?

也许没有哪里没做好。也许我们需要的只是更多的连接、更多的层以及更加复杂的训练方法。毕竟,正如 Botvinick 所指出的,神经网络在数学上等同于一台通用计算机,也就是说只要你能找到正确的连接权重,就没有神经网络处理不了的计算——至少理论上是这样。

但在实践中,出现的错误却可能是致命的——这也是为什么人们越发感觉深度学习的劣势需要从根本上解决。

扩展训练数据的范围是一种简单的解决方法。例如,在 2018 年 5 月发表的一篇论文中,Botvinick 的 DeepMind 团队研究了神经网络在多个任务上训练时发生了什么。他们发现,只要有足够的从后面的层往前传递(这一特性可以让网络随时记住自己在做什么)的「循环」连接,网络就能自动从前面的任务中学习,从而加速后续任务的学习速度。这至少是人类「元学习」(学习如何学习)的一种雏形,而元学习是人类能够快速学习的一大原因。

一种更激进的可能性是,放弃只训练一个大的网络来解决问题的做法,转而让多个网络协同工作。2018 年 6 月,DeepMind 团队发表了一种新方法——生成查询网络(Generative Query Network)架构,该架构利用两个不同的网络,在没有人工输入的复杂虚拟环境中学习。一个是表征网络,本质上是利用标准的图像识别学习来识别在任何给定时刻 AI 能看到的东西。与此同时,生成网络学习获取第一个网络的输出,并生成整个环境的 3D 模型——实际上是对 AI 看不到的对象和特征进行预测。例如,如果一张桌子只有三条腿可见,上述 3D 模型将生成同样大小、形状及颜色的第四条腿。

Botvinick 表示,这些预测反过来又能让系统比使用标准的深度学习方法更快地学习。「一个试图预测事物的智能体会在每一个时间步上自动得到反馈,因为它可以看到自己的预测结果如何。」因此,智能体可以不断更新、优化模型。更妙的是,这种学习是自监督的:研究者不必标记环境中任何事物,甚至也不用提供奖励或惩罚。

一种更彻底的方法是不要再让网络在每一个问题中都从头开始学习。「白板」(blank-slate)方法的确可以让网络自由地发现研究者从未想过的对象、动作的表征方式,也有可能发现一些完全出人意料的玩游戏策略。但人类从来不会从 0 开始:无论如何,人类至少会利用从之前经历中学到的或在进化过程中留在大脑中的先验知识

例如,婴儿似乎生来就有许多固有的「归纳偏置」,使他们能够以惊人的速度吸收某些核心概念。到了 2 个月大的时候,他们就已经开始掌握一些直观的物理规律,包括物体存在的概念,这些物体倾向于沿着连续的路径移动,当它们接触时,不会互相穿过。这些婴儿也开始拥有一些基础的心理直觉,包括识别面孔的能力,以及认识到世界上存在其他自主行动的智能体。

拥有这种内置的直觉偏置可能会帮助深层神经网络以同样的速度快速学习,因此该领域的许多研究人员优先考虑这种思路。实际上,仅仅在过去的 1 到 2 年里,一种名为图网络的方法就在社区内引起了不小的轰动,这是一种颇有前景的方法。Botvinick 表示,「这种深度学习系统拥有固有偏置,倾向于将事物表征为对象和关系。」例如,某些物体(如爪子、尾巴、胡须)可能都属于一个稍大的对象(猫),它们之间的关系是「A 是 B 的一部分」。同样地,「球 A 和方块 B」之间的关系可能是「相邻」,「地球」绕着「太阳」转……通过大量其他示例——其中任何示例都可以表征为一个抽象图,其中的节点对应于对象,连接对应于关系。

图网络是一种神经网络,它将图作为输入(而不是原始像素或声波),然后学会推理和预测对象及其关系如何随时间演变。(某些应用程序可能会使用独立的标准图像识别网络来分析场景并预先挑选出对象。)

图网络方法已经被证明在各种应用程序上都可以快速学习和达到人类级别的性能,包括复杂的视频游戏。如果它继续像研究人员所希望的那样发展,它就可以通过提高训练速度和效率来缓解深度学习的巨量数据需求问题,并且可以使网络更不容易受到对抗性攻击。因为系统表征的是物体,而不是像素的模式,这使得其不会被少量噪音或无关的杂物轻易误导。

Botvinick 坦言,任何领域都不会轻易或快速地取得根本性进展。但即便如此,他还是坚信:「这些挑战是真实存在的,但并非死路一条。」

原文链接:https://www.pnas.org/content/116/4/1074

入门AI图网络深度学习
71
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
这篇文章很清晰的解释了什么是图神经网络,它弥补了深度网络的缺陷,必然是未来神经网络的发展方向