参与路雪 张倩 刘晓坤 李亚洲

AI寒冬将至?「人工智能衰退论」再起,却遭LeCun怒斥

《AI Winter is Well on its Way》是计算机视觉和 AI 领域专家 Filip Piekniewski 所写的一篇文章,文中提到了很多深度学习顶级研究者的观点,如 Geoff Hinton、吴恩达、Yan LeCun、李飞飞、Gary Marcus 等,并以「谷歌、Facebook 等公司对 AI 的研究兴趣正在衰退」作为论据。本文主要涉及「深度学习蒙尘」、对深度学习扩展能力和自动驾驶的讨论、对该领域炒作的批判,最终结论是 AI 寒冬必将到来。对此,Yann LeCun 认为这篇文章「very uninformed」,并列出了几点理由。

近日,一篇名为《AI Winter is Well on its Way》的文章刷屏了(嗯哼,即将刷屏,微笑),对此 Yan Lecun 的评价是:

这篇文章非常无知。Facebook、谷歌、微软等企业近期增加了他们在 AI 方面的努力。

Facebook 现在拥有一个专注于 AI 研究的大型组织,还有人工智能副总裁。微软事业部的名称里就有「AI」(而没有提到「Windows」或「Office」)。谷歌将其整个研究组织重命名为「Google AI」。

这三家公司在雇佣 AI 科学家和工程师方面一直在加速。目前来看并没有平台期或者减速现象。

《AI Winter is Well on its Way》究竟在讲什么呢?机器之心对该文章进行了编译介绍:

近几年来,深度学习一直处于所谓「人工智能革命」的前沿,许多人认为,正是这颗银色的子弹将把我们带到技术奇点的神奇世界(通用人工智能)。很多企业在 2014、2015 和 2016 年进行了多次押注,当时人工智能还有一些新的进展,如 AlphaGo 等。特斯拉等公司宣布,人类距离全自动驾驶汽车已近在咫尺,特斯拉甚至已经开始向客户推销这一概念,以便未来的软件更新能够将其实现。

现在已到 2018 年中,情况已经发生了变化,虽然表面上还看不出来。NIPS 会议仍被过度炒作,企业公关的新闻稿中仍然充斥着人工智能,马斯克依然承诺制造自动驾驶汽车,谷歌 CEO 不断重复吴恩达的口号——「人工智能的影响大于电力」(AI is bigger than electricity)。但这种表述开始出现漏洞。正如我在之前的文章(https://blog.piekniewski.info/2016/11/15/ai-and-the-ludic-fallacy/)中所预测的那样,最明显的漏洞是自动驾驶这一技术在现实世界中的实际应用。

深度学习蒙尘

当 ImageNet 问题得到有效解决(注意,这并不意味着视觉问题得到解决),该领域的许多著名研究人员(甚至包括一贯低调的 Geoff Hinton)都在积极地接受新闻采访,在社交媒体上发表文章(如 Yann LeCun、吴恩达、李飞飞)。总的来说,我们正面临着一场巨大的革命,从现在开始,一切只能加速。几年过去,这些人的 Twitter feeds 变得不那么活跃了,以吴恩达的 Twtter 为例:

2013 年:每天 0.413 条推文

2014 年:每天 0.605 条推文

2015 年:每天 0.320 条推文

2016 年:每天 0.802 条推文

2017 年:每天 0.668 条推文

2018 年:每天 0.263 条推文(截至 5 月 24 日)

或许这是因为吴恩达骇人的主张现在受到了社区更多的审视,如以下推文所示:

很明显,人气已经大幅下滑,称赞深度学习是终极算法的推特少之又少,论文不再那么具有颠覆性,而是被视为一种发展演变。自从发布 AlphaGo Zero 以后,DeepMind 再也没有什么突破性进展,即使是 AlphaGo Zero 也没有那么令人兴奋,因为只需要大量的计算,而且只适用于游戏(参见莫拉维克悖论)。OpenAI 相当安静,他们最后一篇爆款文章是《Dota 2》(我想这一突破应该会像 AlphaGo 一样引起轰动,但却很快就销声匿迹了)。实际上,有文章甚至称谷歌也不知道该如何处理 DeepMind,因为它们的结果显然不像原来预期的那样实际……著名的研究人员一般都是去加拿大或法国与政府官员会面,以争取未来的资助,Yann LeCun 甚至从 Facebook 研究负责人的位置退了下来,成为首席人工智能科学家(颇具象征意义)。从有钱的大公司到政府资助机构的逐渐转变让我觉得,其实这些公司(我想到了谷歌和 Facebook)对这类研究的兴趣正在慢慢消退。这些都是早期的迹象,他们没有大声说出来,只给出了肢体语言。

深度学习(并没有)扩展

其中一个关键口号是不停重复说「深度学习几乎可以毫不费力地实现扩展」。2012 年 AlexNet 出现,拥有大约 6 千万参数,那么现在我们的模型或许具备至少 1000 倍的参数吧?或许是的,但是问题在于:性能也是之前的 1000 倍吗?或者 100 倍?OpenAI 的一项研究显示:

在视觉应用领域,我们可以看到 VGG 和 ResNet 在计算资源到达一定数量级之后逐渐饱和(参数数量实际上减少了)。Xception 是谷歌 Inception 架构的变体,事实上它在 ImageNet 数据集上的性能仅比 Inception 好一点点,也只是稍微优于其他模型,因为 AlexNet 本质上解决了 ImageNet 问题。那么即使我们使用的计算量是 AlexNet 的 100 倍,我们得到的也是饱和的架构,不论是视觉模型还是图像分类。神经机器翻译是所有网络搜索公司都参与的一次大型「战役」,也无怪乎它使用了能使用的所有计算资源(尽管 Google Translate 效果比之前好了一些,但仍然不够优秀)。上图的最后三个点非常有趣地展示了强化学习相关项目,它们被应用于 DeepMind 和 OpenAI 的游戏中。尤其是 AlphaGo Zero 和更通用的 AlphaZero 耗费的计算量大到荒谬,而且无法在现实应用中使用,因为相当一部分计算量用在了模拟和生成数据上,此类模型需要大量数据。那么我们现在可以在几分钟内训练 AlexNet,而不用花费数天时间,但是我们可以在几天时间内训练出 1000 倍大的 AlexNet,并取得更好的性能吗?明显不能……

事实上,上图原本旨在展示深度学习扩展的优异性,但是却达到了相反的效果。我们无法扩展 AlexNet,并得到更好的结果,我们必须使用特定的架构,且高效额外的计算量在缺乏数量级增长的数据样本的情况下无法带来较大的性能改进,而这么多数据只有在模拟游戏环境中才能获得。

自动驾驶车祸

目前对深度学习最大力的鼓吹在自驾汽车领域(我曾在很长时间内对此有所期待)。起初,人们认为端到端深度学习可以在某种程度上解决这个问题,这也是英伟达曾大肆宣扬的假设。虽然不敢保证,但我不认为这个世界上还有人会相信这个说法。看看去年的加州 DMV 脱离报告中,英伟达的汽车无法在没有脱离的情况下驾驶十公里。2016 年以来发生了好几起特斯拉自动导航引起的事故,有些甚至是致命的。可以认为特斯拉的自动导航不应该和自驾混淆,但至少在核心上它们是依赖于相同的技术。在今天,除了偶尔的特大失误,它仍然无法在十字路口停车、识别交通灯或通过交通环岛。这还是在 2018 年 5 月,在承诺穿越美国东西海岸(coast to coast)的特斯拉自动驾驶旅程(并没有发生,虽然谣言称他们曾尽力尝试,但并不能在没有约 30 次脱离的条件下成功)的几个月之后的状况。在几个月前(2018 年 2 月),马斯克在一次电话会议中被问及 coast to coast 自驾时重复道:

「我们本来应该完成穿越东西海岸的自动驾驶行程,但它需要太多的专用代码才能有效地执行,这令其变得脆弱,才能在特定的路径中工作,而不能得到通用的解决方案。因此我认为我们可以在相同的路径下重复使用一个方案,但却不适用于任何其它路径,这根本不是真正的解决方案...」

神经网络领域的进展令我感到兴奋。它和那些呈指数级增长的技术发展趋势类似,起初并没有什么进展、并没有什么进展... 然后突然间就 Wow~。自驾汽车可能也是这样。」

看看上面那张来自 OpenAI 的图,似乎并没有出现指数级的增长趋势。本质上,以上马斯克的声明应该这样解释:「我们目前并没有能安全实现可以横跨美国的自动驾驶技术,虽然我们可以假装有,如果想的话(可能是这样)。我们非常希望神经网络的能力的指数级增长能很快出现,并把我们从耻辱和大量诉讼中解救出来。」

但目前为止,对 AI 泡沫的最重一击是 Uber 自驾汽车在亚利桑那州撞死行人的事故。从 NTSB 的初步报告中,我们可以看到惊人的论述:

在这份报告中,除了通常的系统设计失败之外,令人惊讶的是它们的系统用了很长的时间来确定它在前面到底看到了什么(那是行人、自行车、汽车,还是别的什么),而不是在这样的场景中做出唯一符合逻辑的决策,即确保不会撞到前面的事物。有这么几个原因:首先,人们通常使用言语表达来传递事实。因此人类通常会这样说:「我看到了一个骑自行车的人,因此我必须左转来避开他。」而大量的心理物理学文献提出相当不同的解释:人类看到的事物在其神经系统的快速感知回路中被很快地理解为障碍,因此他做出了快速回应来避开障碍,在很长时间后他才意识到发生了什么,并提供言语解释。

我们每天都做出了大量未被言语化的决策,在驾驶过程中就包含很多这样的决策。言语化是很费时费力的,现实中通常没有这样的时间。这些经历了十亿年进化而出现的机制让我们保持安全,而驾驶场景(虽然是现代的)使用了很多这样的反射。由于这些反射不是特定为驾驶而演化的,它们可能导致错误。在汽车里由于被胡蜂蛰而导致的膝跳反射可能导致很多事故和死伤。但我们对三维空间、速度的一般理解,预测智能体行为和出现在我们路径上的物理对象行为的能力是一种本能,在一亿年前也发挥着和当前一样的作用,并在进化过程中得到了充分的磨砺。

但是由于这些能力大部分很难用言辞表达,因此我们很难去衡量它们,也无法基于它们优化机器学习系统。现在这只在英伟达的端到端方法上是可行的:学习图像 → 动作映射,该方法跳过了任何言语表达,某种程度上这是正确的做法,但……问题在于输入空间的维度非常高,而动作空间的维度非常低。因此「标签」的「数量」与输入信息量相比非常小。在这种情况下,很容易学到虚假关系,正如深度学习对抗样本中那样。我们需要一种不同的方法,我假设整个感知输入的预测和动作是使系统抽象出世界语义的第一步,而非虚假关系。

事实上,如果我们从深度学习爆发中学到了什么的话,那就是(10k+ 维度的)图像空间中有足够多的虚假模式,以至于它们能够泛化至很多图像,且给人一种印象,即我们的分类器实际上理解它们所看到的事物。这就是事实,甚至 AI 领域顶级研究者也这么认为(参见论文《Measuring the tendency of CNNs to Learn Surface Statistical Regularities》)。根据我的观察,实际上很多顶级研究者不应该那么愤怒,Yann Lecun 曾经提醒过人们对 AI 的过度兴奋以及 AI 寒冬,即使 Geoffrey Hinton 在一次采访中也承认这可能是个死胡同,我们需要重新再来。现在的炒作太厉害了,甚至没有人听该领域创始人的看法。

Gary Marcus 和他对炒作的反对

我应该提一下意识到这种狂妄并敢于公开发表反对意见的人。其中一个活跃人物就是 Gary Marcus。尽管我并不完全认同他在 AI 方面的观点,但是我们有一点共识,即深度学习现状并不如炒作宣传所描绘的图景那样强大。事实上还差得远。参见《Deep Learning: A Critical Appraisal》和《In defense of skepticism about deep learning》,在文章中他非常细致地解构了深度学习炒作。我非常尊重 Gary,他的行为是一个真正的科学家应该做的,而所谓的「深度学习明星」的行为则是廉价的。

结论

预测 AI 寒冬就像预测股市崩盘一样——你不可能知道它什么时候发生,但这是一个必然事件。就像股市崩盘之前一样,大多数人被宣传冲昏了头脑,忽略了熊市的先兆,即使事实就摆在眼前。在我看来,已经有迹象表明深度学习的衰退已经临近(可能在 AI 方面,现在这个名词已经被公司的宣传滥用了),事实是如此的明显,但由于越来越多的宣传报道,大部分人还毫无预料。这样的寒冬会有多「冷」?我不知道。下一个热点是什么?我也不知道。但我非常清楚变革即将来临,而且很快就会发生。

原文链接:https://blog.piekniewski.info/2018/05/28/ai-winter-is-well-on-its-way/

产业Yann LeCun人工智能
3
相关数据
对抗样本技术
Adversarial examples

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

Alex网络技术
AlexNet

AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

神经机器翻译技术
Neural Machine Translation

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

阿尔法围棋技术
AlphaGo

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

逻辑技术
Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

强化学习技术
Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。