Richard Sutton:人工智能的未来属于搜索和学习

Richard Sutton 在多伦多大学数学科学研究中心的机器学习应用进展系列研讨会上探讨了人工智能的未来方向。他认为人工智能的未来属于可扩展的方法、搜索与学习。而在人工智能未来的发展中,可扩展性是及其重要的方向。监督学习和计算能力的可扩展性并不大,真正重要的是在普通的经验知识世界中学习的能力,这个能力需要扩展。

摘要


当人类最终开始理解智能的原理并将这些原理赋予机器的时候,这会是我们这个时代,或者可以说是任何时代,最重要的发现。最近几年,随着深度学习及其相关领域的进步,这一巨大的进步几乎触手可及。它给人类所带来的后果、利益和危险已成为新闻界、各种公共政策会议以及科学会议上的热门话题,这是一种夸张和恐惧,还是隐藏在激动人心之下的真正科学进步?在这次讨论中,我将基于我 38 年的人工智能研究经验,给大家讲一些有用的但毫无疑问又带有偏颇的观点。我所讲的内容包括两个方面:1)将目前的发展视为人工智能最长久趋势的一部分——更廉价的计算,以及由此而来的将会扮演更重要角色的搜索、学习以及所有可扩展的事情,2)基于预测以及强化学习,勾勒出一条可能的人工智能之路。


介绍


在不远的将来,人工智能的可扩展性将会是极其重要的。鉴于摩尔定律奠定了我们目前计算能力发展的基础,根据该定律我们的计算资源每两年将翻一番。优秀的算法必须能够随着硬件的发展而扩展。尽管现在研究人员还不需要花费太多的时间关注人工智能的可扩展性,但在不远的将来,这一部分开销将呈现指数级的增长。人工智能的未来应当属于可扩展的搜索与学习。


要点总结


现在


最火最有名的人工智能应用有:AlphaGo、自动驾驶汽车、扑克、语音识别与计算机视觉。为什么它会在现在出现?是因为人工智能算法的巨大进步还是因为摩尔定律?


摩尔定律肯定在其中扮演了重要角色。摩尔定律告诉我们,能够放置在一块相同大小的集成电路上的晶体管的数量大约每两年会翻一番。在计算机硬件领域的长时间指数级增长至少为人工智能的发展贡献了一半的力量。硬件是算法发展的一个巨大激励因素。


1. 是解决还是不解决,所涉及的是人工智能的问题,但根源来源于人类自身。

 a. 人工智能是不安全的且会威胁到人类本身,人工智能将会比人更聪明。

 b. 人工智能的研究人员有时对这些担忧过于轻视。


Richard Sutton认为


 a. 2040(40%), never(10%) 一个人类级别的人工智能将会是一项意义深远的科学成就,它可能会在 2030 年实现(25%),也可能在 2040 年实现(40%),也可能永远不会实现(10%)。


 b. 人工智能会带来很多改变,我们应为此做好准备。


 c. 对人工智能的恐惧被过于夸大了,且这种恐惧是无建设性的。有些恐惧人工智能的人甚至都不知道他们恐惧具体是什么。


  i. 如果人工智能比我们聪明,它们将会脱离我们的控制。很有可能人工智能会是我们的继任者而不是奴隶。而坏的继任者源自于它们父辈的错误。


  ii. 以摩尔定律的速度来看,人工智能的发展速度是缓慢的。


  iii. 最大的风险来源于那些不当使用人工智能之人。


过去:从长期来看可扩展的方法总是赢家。


1. 三波神经网络的热潮


 a.50-60 年代的感知机、Adaline:仅有一层可学习层。


 b.80-90 年代的连接主义(Connectionism)、神经网络:通过反向传递的多层学习(SGD)。


 c.2010 年起的深度学习:神经网络类的方法胜利了,因为它们的性能可以随着摩尔定律的发展大幅提高,而计算类(computational)的方法却做不到这一点。最优秀的算法本质上和 80 年代的算法是一样的,不同的是更快的计算机和更大的数据集。


2. 最好的解决方案来自于最好的算法和强有力的计算机。


 a. 赢得象棋比赛:关键是巨大、高效、启发式的搜索。


 b. 赢得围棋比赛:关键是巨大且基于样本的搜索。


 c. 理解自然语言:关键是一些统计式的机器学习方法和大数据集。


 d. 视觉识别物体:关键是大数据集、更多的参数和更长的训练时间。


3. 搜索和学习是可扩展的方法。


 a. 一个可随着摩尔定律扩展的方法在某种程度上它的性能大致和给予它的计算量成比例。


 b. 一个不能扩展的方法意味着它所带来的改进不太受可用计算能力的影响。


 c. 可扩展的能力是关键,但是它往往也与其他一些问题有关。


符号的 VS. 统计的、纯手工的 VS 可自我学习的、专用领域的 VS 通用的。尽管前者更依靠人类自己的理解,但是从人工智能的发展历史来看,那些统计化的、可自我学习的、通用的方法已经逐渐变得越来越重要。


未来


1. 监督学习的可扩展性有多大?并不太大


 a. 通过神经网络,学习的进程已经被大幅扩展。


 b. 可扩展性是有限度的,因为它需要人们提供训练数据。


2. 强化学习的可扩展性有多大?并不太大


 a. 一个经典的与不受模型限制的强化学习可以通过失败与错误学习出一条规则,不需要数据标注。


 b. 计算是廉价的,没有什么扩展性。


3. 相比较仅仅一个权值方程和策略,相比较仅仅老师告诉你的什么是应该做的事,还有太多的东西要学。


4. 世界经验知识的大挑战(知识表达与推理)。


 a. 知识的定义:知识是关于世界的状态和变化。


  i. 状态是事物过去的总结,它可以用来预测它将来的状态。


  ii. 有了状态的知识就是有了一个好的总结,它能够使预测更精确。


  iii. 预测本身就是动态的知识。


  iv. 需要预测的最重要的东西是状态和奖惩,当然,这取决于 agent 是做什么的。


 b. 举个例子,知识可以是知道象棋里的每一小步如何走,知道什么导致了什么,预测下面会发生什么。


 c. 知识必须具有可表达性(可以表示所有重要的事物)、可学习性(监督的或者非监督的)、适合推理和论证。


 d. 感觉运动观点(与感觉运动阶段有关的感觉运动)。


  i. 你的数据流其实就是你所知的世界中的每一件事。


  ii. 知识在数据中。


5. 一个古已有之的宏伟目标是用感觉运动数据来理解世界。


 a. 能够在各个抽象层次做预测。


 b. 这个目标非常适合进行扩展,它利用大量的数据来学习预测行为以及搜寻最好的抽象。


6. 在未来 12 个月中机器学习领域最重要的进展将会是:


 a. 从寻常知识中进行大规模学习的能力。


  i. 从与世界的互动中进行大规模学习的能力。


  ii. 这种学习不再需要已标注数据的训练集。


  iii. 以一种更自然的方式学习,就像儿童或者动物那样。


  iv. 学习世界如何,以及理解因果性。


 b. 能够使机器学习扩展到更高的水平。


 c. 使用深度强化学习来进行远期预测(可能)和/或 无监督的学习。


7. 新工具


 a. 通用的价值函数为高效可学习可预测的知识提供了一种统一语言。


 b. 可选项以及备选模型(时域抽象)。


 c. 可预测的状态表达。


 d. 新的离策略(off-policy)学习算法(梯度-TD,强度-TD)。


 e. 时域差分网络。


 f. 深度学习,表达搜索。


结论(最终看法)


1. 摩尔定律极大地影响了人工智能的发展。


2. 人工智能的未来属于可扩展的方法、搜索与学习。


3. 能够从平常经验中学习知识是一种巨大的进步。


4. 我们的计划应该具有雄心,并且可扩展,还要有耐心。


5. 在 AI 领域的研究者中,对于着眼于未来的可扩展性并不是十分有吸引力。因为对于想要出成绩的研究者而言,他们更希望自己对相关领域的贡献可以在短期内有显著的影响力,更希望自己的知识与新奇的想法应用的现有的研究当中。然而,随着硬件计算能力的提升,即使是一个算法具有优秀扩展性的算法没法在短期内满足研究应用的需求,从长远来看这样的算法将会很有竞争力。这就像「一步到位方法」vs.」长期演进方法」。研究者们应在他们自己的研究中找到平衡点。


相关阅读


通过强化学习教机器下象棋

https://www.technologyreview.com/s/541276/deep-learning-machine-teaches-itself-chess-in-72-hours-plays-at-international-master/


关于假肢的实时预测

https://webdocs.cs.ualberta.ca/~sutton/papers/PDDCCHS-13.pdf


Rich NIPS 2015 RL tutorial

https://www.microsoft.com/en-us/research/video/tutorial-introduction-to-reinforcement-learning-with-function-approximation/

理论
暂无评论
暂无评论~
返回顶部