参与张倩 杜伟

DeepMind巨额亏损的背后,今天的AI是否选对了方向?

前段时间,英国公司登记处的一份文件披露了 DeepMind 2018 年的财务状况:这家 AI 科技公司的净亏损由 2017 年的 3.41 亿美元增加至 2018 年的 5.72 亿美元,今年到期的债务高达 12.656 亿美元。如此巨额的亏损引起了广泛关注,也引发了人们对于 AI 前景的质疑。近日,纽约大学心理学和神经科学教授 Gary Marcus 就在《连线》上撰文表达了对于 DeepMind 亏损状况、深度强化学习现状以及 AI 未来走向的深度思考。

DeepMind 可能是全世界最大的专注于科研的 AI 公司,但它正在遭受巨额亏损,过去三年的亏损超过 10 亿美元,而且未来 12 个月还有超过 10 亿美元的债务需要偿还。

这是否意味着 AI 正在分崩离析呢?
事实并非如此。做研究需要花钱,DeepMind 每年都在做更多的研究。这家公司的确花了很多钱,而且可能比以往任何 AI 研究公司都要多。但与科学界那些大型项目相比,DeepMind 花的钱还远远算不上史无前例。例如,大型强子对撞机每年可能要花费 10 亿美元,而发现希格斯玻色子的花费估计超过了 100 亿美元。当然,实现电影里那种真正的机器智能(即 AGI)要花费的还远不止这些。
尽管如此,DeepMind 的巨额亏损(从 2016 的 1.54 亿美元到 2017 年的 3.41 亿美元再到 2018 年的 5.72 亿美元)还是值得我们反思。在我看来,这其中有三个核心问题

  • DeepMind 是否选对了方向?

  • 从谷歌母公司 Alphabet 的角度来看,这种规模的投资是否合理?

  • 这种亏损会对 AI 的整体发展产生什么影响?

对于第一个问题,我们有理由持怀疑态度。DeepMind 将大部分人力和财力投入到了深度强化学习的技术研究中。该技术结合了深度学习和强化学习,前者主要用于模式识别,后者则是以奖励信号(如游戏中的得分或胜负)为基础的学习。
深度强化学习技术是 DeepMind 在 2013 年提出的,他们在一篇名为《Playing Atari with Deep Reinforcement Learning》的论文中展示了单个神经网络系统如何玩转各种雅达利游戏,如打砖块(Breakout)、太空侵略者(Space Invaders)等,而且证明神经网络的表现优于人类。
这篇论文称得上一篇工程杰作,可能也是 2014 年谷歌收购 DeepMind 的关键催化剂。这项技术的持续发展推动了 DeepMind 在围棋和《星际争霸》游戏对抗中取得成功。
但问题是,这项技术的适用范围非常狭窄。以打砖块游戏为例,轻微的改变(如将拍子往上移动几个像素)就会导致网络性能大幅下降。DeepMind 的《星际争霸》AI 也非常受限,只有在单一地图上选择某种角色才会达到超越人类的水平,但随着地图和角色数目的增加,该 AI 的性能也大幅降低。要转换角色,你需要从头训练整个系统。
从某些方面来说,深度强化学习是一种涡轮增压式的记忆方式:使用该技术的系统能够完成令人惊叹的壮举,但它们对自己在做什么知之甚少。因此,现有的系统缺乏灵活性,也就无法在现实世界发生变化时做出补充(DeepMind 提前 48 小时预测急性肾损伤的 AI 系统也受到了这种质疑)。
深度强化学习还需要大量数据,如 AlphaGo 的训练需要完成数百万次自我博弈,这一训练量远远大于人类成长为世界级棋手所需的训练量。这就需要谷歌级别的算力,也就意味着在现实世界中,多数用户仅仅因为算力开销就会望而却步。据估算,AlphaGo 的训练花费了 3500 万美元,这相当于 12760 个人脑三天三夜不眠不休所消耗的能量。
但这还只是经济方面的考量。正如我和 Ernest Davis 在即将出版的新书《Rebooting AI》中所谈到的,真正的问题在于可靠性。迄今为止,深度强化学习还只能在控制良好、很少出现意外的环境中进行。围棋就是一个完美的环境,其规则和棋盘两千年来都未发生变化,但在现实世界的许多场景中,你不会想要依赖这项技术。


商业变现能力有限
出现上述问题的部分原因在于,只有极少数的现实世界问题像 DeepMind 所研究的游戏那样受到各种限制,DeepMind 还未发现深度强化学习的任何大规模商业应用场景。Alphabet 对 DeepMind 的投资已经达到了 20 亿美元左右(包括 2014 年收购时所花费的 6.5 亿美元)。相比之下,DeepMind 创造的直接经济回报却少得可怜,2018 年只有 1.25 亿美元,其中包含利用强化学习帮助谷歌降低服务器冷却开销所缩减的费用。
DeepMind 用来解决围棋问题的那一套技术可能无法用来解决现实世界中需要用 AI 来解决的问题,如癌症治疗和清洁能源。对此,IBM 已经在 Watson 项目中经历了惨痛的教训。Watson 在某些情况下表现良好,但在其他情况下并不好用,出现了心脏病漏诊等问题,而一年级的医学生都不会犯这种错误。
当然,这也许只是时间问题。DeepMind 至少从 2013 年就开始了深度强化学习的研究,也许他们需要更长时间,很少有科学进展能够在一夜之间实现商业化。DeepMind 或其他公司可能会通过结合其他技术开发出更深层次、更稳定的深度强化学习系统,也可能不会。
深度强化学习最终可能会成为另一个「晶体管」,走出实验室并最终改变世界,也可能只是一种学术好奇心,John Maynard Smith 曾经将这种好奇心描述为「寻找问题的解决方案」(solution in search of problem)。我个人猜测,深度强化学习会介于两者之间,它会成为一种有用并被广泛采用的工具,但不会改变世界。
没有人可以将 DeepMind 排除在外,尽管其现有的战略不像许多人期望的那样丰富。深度强化学习可能并非是通向通用人工智能的坦途,但 DeepMind 自身是一个令人敬畏的公司,它组织严密、资金充足,拥有数百名博士。在围棋、《星际争霸》上取得的成功令其获得了更多的曝光,越来越多的人才加入其中。如果 AI 的风向发生变化,DeepMind 很可能会转向另一个方向。显然,DeepMind 是无可匹敌的。


对于期望过高的担忧
最后一个问题是关于 DeepMind 的财务状况会对 AI 总体发展产生怎样的影响,这个问题很难回答。如果炒作大于产出,就容易带来另一个「AI 寒冬」,到时即便是支持者也不会愿意投资。投资界也会注意到这种巨额损失;如果 DeepMind 的损失每年翻一番,即使是 Alphabet 也会被逼退。这不只是钱的问题。目前为止还看不到切实的财务成果。在某个时候,投资者可能不得不重新调整他们对于 AI 的热情。
迄今为止,通用人工智能还停留在炒作的层面,实现起来还很困难。尽管我们已经在广告、语音识别等几个有限的领域取得了重大进展,但 AI 无疑还有很长的路要走。对大数据集进行合理分析所带来的好处是不可否认的,即使只是以有限的形式,AI 已经成为一种有力的工具。业界对 AI 的热情可能没那么高了,但他们也不会彻底退出。


我想给出以下预测:
十年后,我们将得出结论:深度强化学习在 2010 年代后期被高估了,其他许多重要领域则受到了忽视。我们在强化学习上每投入一美元,在其他领域就少投入一美元,比如可能产生有价值洞见的人类认知科学。
机器学习领域的研究者现在经常会问,「儿童学习语言、理解世界所需的能量和数据比现有的 AI 系统要少得多,他们是如何做到的?」如果花更多时间、金钱和精力去解决后面这个问题,我们也许能早点实现通用人工智能


扩展阅读:


对话 Gary Marcus:人工智能还未找到它的牛顿,我们不能依赖它
打响新年第一炮,Gary Marcus 提出对深度学习的系统性批判
「我是可微分编程的粉丝」,Gary Marcus 再回应深度学习批判言论
Gary Marcus:在人工智能上取得成功的「叛逆者」
观点 | 人工智能搁浅了?听一听纽约大学教授 Gary Marcus 怎么说
访谈 | 离开 Uber 后的 Gary Marcus:人工智能远比你想象的要难
重磅 | 批评深度学习的 Gary Marcus 能让人工智能更接近人类吗?
前沿|Gary Marcus:一味追求大数据是机器学习的误区,我们的算法所需数据更少且速度更快
重磅|Gary Marcus:人工智能若想取得突破,需要认知科学和工程学的联姻


原文链接:
https://www.wired.com/story/deepminds-losses-future-artificial-intelligence/
产业Gary MarcusDeepMind
11
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

推荐文章
Gary Marcus 确实眼光独到,还目光长远。