Thomas Nield作者

深度学习已经触底?这篇文章的观点令人信服吗?

AI 迎来另一寒冬?这是 2018 年下半年至今我们一直能听到的一种声音。这类唱衰的文章一经发布,总是能博人眼球。这篇发表在 Medium 上的文章探讨了 AI 的历史和现在,泛谈了深度学习的局限性,思考 AI 寒冬的到来。你认同这篇文章的观点吗?

许多人认为,算法可以利用认知意识来超越人类。机器可以在没有人类干预的情况下识别和学习任务。他们完全可以「思考」。许多人甚至提出了我们是否可以打造机器人配偶的问题。

但以上的讨论并非今天才出现的话题。如果我告诉你早在上世纪 60 年代,AI 领域先驱 Jerome Wiesner、Oliver Selfridge 和 Claude Shannon 就坚信这些将发生在不远的将来,你会作何感想?

让我们回到 1973 年,彼时 AI 炒作遇冷。英国议会指定 James Lighthill 爵士起草英国人工智能研究现状报告,该报告批评人工智能研究没有达到其所宣称的效果。有趣的是,Lighthill 还指出了专门的程序(或编程人员)比 AI 表现要好得多,AI 在现实世界环境中没有前景。因此,英国政府取消了所有 AI 研究经费。

在大洋彼岸,美国国防部也曾斥巨资开展 AI 研究,但在遇到同样的挫折后也取消了几乎所有经费,这些挫折包括:对 AI 能力的夸大、高成本无回报,以及在现实世界中看不到期望的价值。

到了 20 世纪 80 年代,日本在人工智能领域大胆尝试,提出了「第五代计算机」项目。然而,在耗费了 8.5 亿美元之后,这一项目不幸流产。

首个 AI 寒冬

20 世纪 80 年代末,AI 进入寒冬,这是计算机科学的一段黑暗时期,组织和政府所支持的人工智能研究都交付失败,造成了沉没成本。这样的失败使 AI 研究消沉数十年。

到了 20 世纪 90 年代,「AI」成了一个骂人的词,这种状况一直持续到 21 世纪初。那时人们普遍相信「AI 没什么用」。编写智能程序的软件公司使用的词是「搜索算法」、「业务规则引擎」、「约束求解器」、「运筹学」。值得一提的是,这些珍贵的工具的确来自 AI 研究,但由于没有完成更伟大的使命,它们不得不换了个名字。

2010 年左右,情况发生了转变。人们对 AI 的热情重新燃烧起来,图像分类竞赛吸引了媒体的眼球。硅谷坐拥海量数据,首次达到可以让神经网络发挥作用的程度。

到了 2015 年,AI 研究已经占据了财富 500 强公司的大笔预算。通常,这些公司是由于 FOMO(害怕错过)而不是实际用例驱动的,他们害怕被自己的竞争对手甩在后面。毕竟,拥有一个能够识别图像中物体的神经网络是一件酷炫的事情!外行认为天网(SkyNet)具备的强大能力一定会出现。

但这真的是在向真正的人工智能迈进吗?或许只是重演历史,只不过这一次有很多成功用例。

AI 到底是什么?

我曾经很不喜欢「人工智能」这个词。它的概念模糊又深远,且更多的是被营销人员而不是科学家来定义。当然,市场营销和流行语可以说是刺激积极变化和拥抱新思想的必要条件。然而,流行语又不可避免地会导致混乱、模糊。我的新智能手机有「AI 铃声」功能,在嘈杂的环境下会自动加大铃声。我想大概那些可以用一系列「if」条件句或简单线性函数编程的东西都能叫「AI」吧。

如此,人们对「AI」的定义存在广泛争议也就不足为奇了。我喜欢 Geoffrey De Smet 的定义,他认为「AI 解决方案」针对的是那些答案不明和/或存在不可避免误差的问题。这样就包括了从机器学习到概率和研究算法的很多工具。

也可以说,AI 的定义在不断发展,并只包括突破性进展,而昨日的成功(如光学字符识别和语言翻译)则不再被视为「AI」。因此「AI」是一个相对的术语,并不绝对。

近年来,「AI」常与「神经网络」绑在一起,这也将是本文的重点。当然,还有其它的「AI」解决方案,如机器学习模型(朴素贝叶斯支持向量机XGBoost)和研究算法。但神经网络无疑是当前最热门、最受追捧的技术。

AI 的「文艺复兴」?

2010 后,AI 宣传再次变得火热的原因仅仅是因为掌握了一项新任务:分类。具体来说,利用神经网络,科学家开发了一些有效的方法来对大多数类型的数据(包括图像和自然语言)进行分类。甚至自动驾驶汽车也属于分类任务,汽车周围道路的每张图像被转化为一组离散动作(汽车、刹车、左转、右转等)。

在我看来,自然语言处理比单纯的分类要更令人印象深刻。人们很容易认为这些算法是有感知的,但如果你仔细研究它们,你会发现它们依赖的是语言模式而不是有意识构建的思想。这会带来一些有趣的结果,比如这些机器人会为你操控骗子。

自然语言处理最令人印象深刻的壮举可能是 Google Duplex,它能让你的手机代你打电话,特别是预约。但是,你要知道 Google 可能只是为这个特定任务训练、构建甚至硬编码了该「AI」。当然,Google Duplex 的声音听起来很自然,有停顿,如「啊…嗯」,不过,这些仍是通过对语音模式进行操作来完成的,而不是通过实际推理和思考。

所有这些都令人印象深刻,并且肯定有一些有用的应用。但我们的确需要降低期望并停止宣传「深度学习」的能力了。否则,我们可能会发现自己陷入另一个 AI 寒冬。

历史总是相似的

康奈尔大学的 Gary Marcus 写了一篇关于深度学习天花板的文章,并提出了几个发人深省的观点(这篇文章传播开来后,他又写了一份有趣的续篇)。Rodney Brooks 则整理时间表,并通过引用的研究来追踪其人工智能炒作周期预测。

持怀疑观点的人有几个共同点。神经网络需要大量数据,而即使在今天,数据也是有限的。这也是为什么你在 YouTube 上看到的「游戏」AI 示例需要连续几天不断地输掉游戏,直到神经网络找到获胜模式。

神经网络的「深度」在于它们有多层节点,而不是因为它对问题有深度理解。这些层还使神经网络难以理解,甚至其开发者都无法理解。最重要的是,神经网络触及其他问题空间(如旅行推销员问题,TSP)时会出现回报减少的情况。为什么在搜索算法更有效、更可扩展、更经济的情况下,我还要用神经网络解决 TSP 问题?当然了,很多人想使用神经网络解决该问题,但有趣的是,神经网络似乎很少超过任何专门算法。

Luke Hewitt 在《The Unreasonable Reputation of Neural Networks》一文中给出了最好的解释:

仅仅基于单个任务就凭直觉判断智能机器能够用得多广或有多大能力并不是什么好主意。20 世纪 50 年代的下棋机器惊艳了研究人员,许多人将其作为迈向人类水平推理的一大步,但我们现在意识到,在该游戏中达到或超越人类水平比达到人类水平通用智能容易得多。实际上,即使是最优秀的人类也会轻易被简单的启发式搜索算法打败。人类或超人类的表现不一定是在大多数任务中接近人类表现的垫脚石。

我认为应该指出的是,神经网络的训练需要利用许多软件,消耗大量能量。我感觉这是不可持续的。当然,神经网络预测的效率比它训练出来的要高得多。然而,我认为,为了实现人们在神经网络上的野心,神经网络需要更多训练,消耗的能量、成本将指数级增长。当然,计算机越来越快,但芯片制造商能否继续维持摩尔定律

出于这些原因,我认为又一个 AI 寒冬即将到来。越来越多的专家和博主指出这些局限。企业仍然斥巨资招募最好的「深度学习」和「AI」人才,但我认为企业意识到深度学习并非它们所需只是时间问题。更糟的是,如果你的公司没有谷歌那样的研究预算、博士人才或海量用户数据,那么你很快就会发现你所实践的「深度学习」前景有限。

每个 AI 寒冬之前总会出现很多科学家夸张、炒作其研究的潜力。他们并不满足于称自己的算法能做好一项任务,而是想让算法适应任意任务,或者至少给人这样的印象。例如,AlphaZero 擅长棋类游戏,于是媒体的反应是「天啊,通用人工智能到来了!机器人来了!」然后科学家没有纠正他们,而是鼓励他们使用此类词汇。毕竟,降低期待不利于 VC 融资。尽管有一些局限,但 AI 研究者仍然人格化其算法,他们可能出于其他原因,这更像是一个哲学问题,而非科学问题。本文最后将讨论这个问题。

那么,接下来呢?

当然并非所有使用「机器学习」或「AI」的企业实际上使用的是「深度学习」。一个好的数据科学家可能会受雇去构建神经网络,但是在她真正研究这个问题时,构建朴素贝叶斯分类器似乎更合适。对于成功使用图像识别和语言处理技术的公司而言,它们将乐此不疲。但是我认为神经网络并没有走出这些问题空间。

之前的 AI 寒冬对拓宽计算机科学的边界具有很大的破坏性。必须指出有用的工具出自此类研究,如可以在国际象棋比赛中夺冠或在交通问题中最小化成本的搜索算法。简而言之,这些出现的创新性算法通常只擅长一项特定任务。

我想表达的是,很多问题已经有许多被证实有效的解决方案。要想顺利度过寒冬,你最好专注于你想解决的问题并理解其本质,然后为该问题提供一个直观的解决方案路径。如果想对文本信息进行分类,你或许想使用朴素贝叶斯分类器。如果尝试优化交通网络,你或许应该使用离散优化。不用管同辈压力,你可以对卷积模型抱着适当的怀疑态度,并质疑它的正确性。

如果你不买毕达哥拉斯学派的帐,那你最大的努力也就是让 AI「模拟」行为,创造出它有情感与思想的错觉。

关于深度学习不是解决其中大部分问题的正确方法,这篇文章解释的非常明了。不要尝试为自己的问题寻求一种通用的 AI 解决方案,因为你找不到的。

我们的想法真的是点积吗?哲学 vs 科学

本文最后,我想说比起科学问题,这更像是一个哲学问题。我们的每一个想法和感觉只是一些以线性形式相乘、相加的数字吗?我们的大脑只是一个整天做点积运算的神经网络吗?将人类意识简化为数字矩阵,这听起来像毕达哥拉斯学派。或许这正是很多科学家认为可能出现通用人工智能的原因。

如果你不相信毕达哥拉斯学派,那么你所能做的就是让 AI「模拟」一种幻象,即它拥有情绪和想法。一个完全不理解中文的翻译程序可以通过寻找概率模式来模拟出自己理解中文的假象。那么,当你的手机「识别」出狗狗的照片时,它真的认识狗吗,还是它只是看到了它曾见过的数字模式?

在这篇文章的评论区,有读者提出了质疑:

@Toby Walsh:

本文开头有一个经典错误,作者表示「因此,英国政府取消了所有 AI 研究经费。」这种说法是不对的。Lighthill 的报告的确导致 AI 经费减少,但有些地方的 AI 研究仍旧受到政府资助,比如爱丁堡大学(我的 AI 方向博士学位就是 20 世纪 80 年代受英国政府资助在爱丁堡大学取得的)、艾塞克斯大学和萨塞克斯大学。实际上,在 Lighthill 的报告出来十年之后,阿尔维计划(Alvey programme)甚至还大幅增加了 AI 的研究经费。

@Owen Liu:

我认为深度学习架构确实快到极限,但其「应用」并不是这样。

  • 第一种类型:深度强化学习成功结合了深度学习函数逼近器和传统强化学习(如动态规划),并作出了巨大贡献,开创了学术研究的多种可能性。未来可能会有更多此类例子。

  • 第二种类型:几乎没有自动驾驶汽车直接使用神经网络控制汽车。深度学习通常作为感知任务中的一个模块。决策、轨迹追踪和控制都是通过其它算法实现的(如优化技术)。深度学习可用作改变行业的大系统中的一部分(没有深度学习自动驾驶汽车几乎无法在真实的复杂环境中获得任何合理的结果)。

是的,工具本身正在走向极限,炒作也将慢慢熄火,但深度学习仍然是非常有用的工程技术。

@Kristian:

文章第一部分很不错,但我对后面的内容有些失望。这篇文章并没有真正讨论目前机器学习方法的技术局限,比如它们离模拟真正神经系统还非常遥远,也因此可能缺乏实现通用智能系统所需的灵活性和效率。

原文链接:https://towardsdatascience.com/is-deep-learning-already-hitting-its-limitations-c81826082ac3

入门深度学习
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规则引擎技术

与基于规则的专家系统(rule-based expert system)涵义类似,通常是依据设定好的规则作出决策的引擎。在计算机科学中,基于规则的系统被用作存储和操纵知识的一种方式,以有用的方式解释信息, 它们经常用于人工智能应用和研究。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

运筹学技术

运筹学,是一门应用数学学科,利用统计学和数学模型等方法,去寻找复杂问题中的最佳或近似最佳的解答。运筹学经常用于解决现实生活中的复杂问题,特别是改善或优化现有系统的效率。研究运筹学的基础知识包括矩阵论和离散数学,在应用方面多与仓储、物流等领域相关。因此运筹学与应用数学、工业工程专业密切相关。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

启发式搜索技术

计算机科学的两大基础目标,就是发现可证明其运行效率良好且可得最佳解或次佳解的算法。而启发式算法则试图一次提供一个或全部目标。例如它常能发现很不错的解,但也没办法证明它不会得到较坏的解;它通常可在合理时间解出答案,但也没办法知道它是否每次都可以这样的速度求解。

朴素贝叶斯技术

朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

旅行推销员问题技术

旅行推销员问题是这样一个问题:给定一系列城市和每对城市之间的距离,求解访问每一座城市一次并回到起始城市的最短回路。它是组合优化中的一个NP困难问题,在运筹学和理论计算机科学中非常重要。 TSP是旅行购买者问题与车辆路径问题的一种特殊情况。 在计算复杂性理论中,TSP的做决定版本属于NP完全问题。

XGBoost技术

XGBoost是一个开源软件库,为C ++,Java,Python,R,和Julia提供了渐变增强框架。 它适用于Linux,Windows,MacOS。从项目描述来看,它旨在提供一个“可扩展,便携式和分布式的梯度提升(GBM,GBRT,GBDT)库”。 除了在一台机器上运行,它还支持分布式处理框架Apache Hadoop,Apache Spark和Apache Flink。 由于它是许多机器学习大赛中获胜团队的首选算法,因此它已经赢得了很多人的关注。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~