Oreilly重磅报告:使用机器学习分析美国人工智能市场

Oreilly 的这份报告阐述了人工智能以及它在产业中的应用。做此报告的目的是设立一个里程碑,以便研究未来人工智能的增长情况,并提供一个视角,分析现在世界上人工智能的发展。

目录

  • 新的人工智能市场

  • 人工智能的原始动力

  • 提醒

  • 关于此调查报告

  • 产业对人工智能的投资布局

  • 公司对人工智能的投资

  • 人工智能的应用案例

  • 成熟人工智能公司采用的技术

  • 面向人工智能公司的物理位置

  • 总结

一、新的人工智能市场

2004 年,在迷宫般的斯坦福计算机科学系走廊上,我曾与一个酷似圣诞老人的人交谈。这个胡子大叔就是 John McCarthy,他在上世纪五十年代提出了「人工智能」这个术语,与 Marvin Minsky 并称人工智能之父。在很长的一段时间里,为了人工智能的发展 McCarthy 带头创建了 Lisp 语言、计算机分时系统、垃圾回收和演算等等。那时,我还是一个学习自然语言处理的研究生,人工智能不像现在那么酷,自然语言处理也是如此。人工智能远非令人敬畏的概念,但现在所谓的人工智能的寒冬开始温暖了。

2004 年的那天,我盯着房间里的自动恒温器,与 John McCarthy 从关系数据库的无力谈到对人工智能的反省。在每所大学和医院里,自动恒温器都是无聊的存在。然而 John 相信那个自动恒温器能够「思考」并「拥有情感和信仰」,就像在他的论文《Ascribing Mental Qualities to Machines》中描述的那样。其实,他对人工智能或者数据库的现状感到失望。我不知道 Nest 的创始人在发明他们的设备时,是否听说过 John McCarthy 关于自动恒温器的想法,又是否被这种想法所激励,但每次我看到一台 Nest 设备时,我就想起 John McCarthy,以及我们是如何快速从之前的那种自动恒温器发展成如今 Nest 生成的恒温器。虽然我不太确定我的 Nest 有多能思考,但是它确实将自己的小任务完成得很出色。

恒温器内置的模型能预测未来以及我所设定的目标,从而引导自己的行为。它可能并不算我们所想的人工智能,但在短短几年里,自动恒温器向着 McCarthy 的设想发展了许多。John McCarthy 教授在 2011 年逝世。很快,人工智能从计算机科学系的实验室以及失败的试验尝试中走进了现实世界。我和该领域的每个人经常琢磨的问题是,人工智能是否会停留在这里,我们是否容易受到另一个人工智能寒冬的影响。多数人工智能领域的人都非常务实,并希望解决实际问题,这给予了我信心。我欣赏电视上每一条沃森的商业广告,因为 IBM 正投入巨额营销费用宣传人工智能的畅想,但是我也担心这项新兴的技术可能无法实现过多的承诺。每个人都在投身战场。谷歌的首席执行官最近宣布,人工智能和机器学习会成为他们所有产品的核心部件。

该报告旨在描绘目前人工智能的市场和它在学术实验室之外的商业应用。我们站在大量人工智能应用的交接点。大胆的市场预测到处都是,我们需要基于数据定位自己的位置。该报告的目标是设立一个里程碑,以便学习人工智能在未来的增长情况。支持该报告的数据是独立的,我的评论也仅是其中的一种解释。该报告还希望能为生产者提供关于他们如何采用人工智能、大方向以及使用案例上的指导。该项目的范围限定为美国公司。

二、人工智能的原始动力

人工智能在 2011 年和 2012 年真正进入了主流产业——讽刺的是,这是在它的创建者 McCarthy 和 Minsky 逝世之后。其实,人工智能在这时发芽是有许多重要的原因的,许多基础技术汇聚起来共同创造了这场完美的风暴。下列是一些使得人工智能向全世界主流开发者和公司开放的技术创新和市场条件:

  • 大数据基础:像谷歌孵化的项目 Hadoop 发表的 MapReduce 论文为人工智能提供了廉价的、大量的数据处理基础设施。

  • 云计算:这项技术的进步使得一个研究生能仅花 1000 美元来租用 100 个节点的机器进行数据处理工作,先前这样的工作需要一亿美元的投入进行建设。

  • 大量数据:像 Nutch 这样开源的网络爬虫使得知识能在互联网上共享。也多亏 commoncrawl 这样的开源库,每个人才能轻松的获取互联网页面上的内容。

  • 沃森和 Siri:虽然不是毫无瑕疵,但沃森和 Siri 都应该被赞扬,它们使人工智能受变得更受欢迎,并让大众能够接触到它。

  • 风险投资:自 2009 年来,超过 100 亿的风险投资被投入到大数据基础设施建设中,这些基础设施构建了今天的人工智能应用。

  • 合格的人力资源:从数据处理到数据科学,能完成各种人工智能开发任务的劳动者的数量增长了十倍。

三、提醒

在我们深入探讨人工智能在商业领域的应用现状之前,我想先指出一点,那就是我们现在发明的大部分科技其实离广义的人工智能还很远。我把广义人工智能定义为一个可以思考这个世界、理解普遍问题,并可以用与人类智慧水平相当甚至超越人类的智慧去解决这些问题的系统。现在人工智能领域的传播者们有一个主要的争论,即大部分只是一些琐碎的词袋模型(也叫作计数)的东西被误称为人工智能——其实它们不能思考或做一些被标签为是「认知」层面的事情。

针对某一些人类可以完成的任务,现在有一些科技已经可以用类似人类甚至超越人类的智能完成(也叫狭义智能)。而且这些任务不仅仅只是那种随便找一个人就能完成的任务,而是那种需要一个非常擅长做某个任务的人来完成的。DeepMind 战胜了围棋大师,它是一项成就,因为它不像国际象棋一样可以暴力求解每一步,而是需要人类的直觉。图像认知也已经做到了这一步,甚至有时可以超越人类的表现。举个例子,我们自己为 Spiderbook 研发了一个人工智能机器,这个机器在列出目标客户名单方面,可以比一个好的销售人员做的更加出色。  

然而,这份报告的目的不是为了争论什么是或者什么不是人工智能,我只是想从实践的角度去给人工智能下一个定义,并针对自称使用或研发人工智能的公司进行分析。我没有试图证实人们口中说的人工智能,也没有试图去辨别人工智能的好坏。

四、关于此调查报告

为了做这项研究,我的团队使用了一个在 Spiderbook 开发的,基于图片的机器学习模型,来学习围绕人工智能的行业词汇,读取整个商业互联网上的信息,并按在人工智能领域的投资情况和成熟程度将其进行分类。我们仔细研究了近  50  万来自世界各地的企业,以便对人工智能行业情况和诸如认知计算、深度学习、机器视觉、自然语言理解以及聊天机器人等技术有一个有数据支持的深入了解。这个模型的引擎可以阅读并理解数十亿公开文件,包括所有的新闻稿,业务关系情况,论坛,招聘广告,博客,推特,专利和我们已经授权的专利数据库。我们使用这些商业互联网的数据,绘制了一张知识图谱。这个知识图谱展现了企业之间是怎么内部连接的以及哪家公司在用什么产品,哪家公司有才华横溢的员工等。在这个知识图谱的顶端,我们使用了基于网络的机器学习模型创建了一对公司快照。这个快照能几乎即时反映公司的资产、项目和投资情况。

让我们深入了解一下结果。

五、产业对人工智能的投资布局

正如预期的那样,使用人工智能最多的是与软件和 IT 相关的公司。后面的数字提供了对人工智能投资的行业的细分,(我们可以看出)现有的投资金额仍然很小。除去软件和 IT 外的其他行业中,每个行业只有十几家公司实际参与了人工智能的投资。

1.jpg

六、公司对人工智能的投资

如今北美地区只有 1500 家公司正在做和人工智能有关的事,即使从人工智能的狭义的、基于任务的定义来看。这意味着不到 1% 的大中型企业正在采用人工智能。下面的由业内人士给出的列表展示了一些积极投资人工智能的公司。尽管各行业内只有不到 1% 的公司正在采用人工智能,但采用了人工智能的公司似乎都是业内的领头羊。他们都声名赫赫,是各自领域内最大和最成功的公司。对于这一发现,很难辨别其中的因果关系:是因为这些公司执着于追求领导地位?还是他们有额外资源去尝试不仅是人工智能这样的新观念?或者也许他们是新技术的早期采纳者,为行业内其他公司奠定可以遵循的基础?

下面的列表展示了投资人工智能最多的公司,这些公司将人工智能作为自己业务的核心战略驱动。对于这份榜单通常存在质疑,比如谷歌和 Facebook ,还有像 MITRE 这样的公司。 MITRE 是一家非盈利公司,运营美国联邦资助的尚不为人熟知的研发中心。

  1. 谷歌

  2. Facebook

  3. Rocket Fuel

  4. IBM

  5. 亚马逊

  6. 雅虎

  7. 英特尔

  8. 微软

  9. Deloitte

  10. MITRE

  11. 百度

  12. 领英

  13. 苹果

  14. Cylance

  15. Lockheed Martin(洛克希德·马丁)

  16. NASA

  17. Sentient Corporation

  18. Electronic Arts(艺电)

2.jpg

七、人工智能的应用案例

我最近看了一个米尔肯研究院( Milken Institute)组织的人工智能精英专家组的演讲,他们谈到了人工智能目前的进展,还有用这种技术现在能实现哪些事情。这个专家组提出的理念比现今人工智能的实际应用要更激动人心——有些更激进而很多则更温和。这些理念涵盖了从人类疾病诊断到农业再到老年看护等领域。然后,根据我们的机器智能研究,人工智能主要的应用似乎更倾向于自动完成人类每天所作的平庸任务。下面的图片量化了企业预算是如何用在特定人工智能应用案例中的。

这张图中有很多创新型应用,已经超出了自动完成日常任务的范围。比如说,像远程信息处理、物联网和机器人这样的应用对全行业都有重要意义,而且不仅仅代表了人类任务的自动化。

网络智能和安全性:人工智能的主要驱动

看到人工智能在网络智能世界如此广泛的应用也是很令人吃惊的,这个领域在人工智能圈还不是一个大话题,不过很明显一大笔预算都被投入了这个领域。

在网络智能方面,构建,咨询或使用人工智能的公司比其他应用案例的公司更多。也许社会上的威胁比报道出来的要多,毕竟对于公司,公开这些威胁对它们并没有什么好处。或者,也许这是美国政府不断对这个垂直领域提供资金所带来的副现象。

3.jpg

八、成熟人工智能公司采用的技术

过去十年来,掀起了用当今的人工智能相关算法解决经典老问题的浪潮,比如分类和自然语言处理。有些算法被保留下来有了更大的应用,因为它们效率高,更适用于问题解决,但它们中大部分都淡出了人们的视线。算法的最近一次革新发生在深度学习领域,这个领域以前是被隐含狄利克雷分布(LDA)、半监督学习、潜在语义索引(LSI)、支持向量机这些算法统领的。这些技术中有几个形成了自己的独类,即便它们所解决的问题有很大一部分是重叠的。比如说,深度学习可以被用于自然语言理解(NLU)、认知计算、甚至是自动驾驶汽车,不过它主要还是被用于图像处理的。

人工智能应用的分解说明并不能清楚地说明市场上现有的人工智能成熟度。下面两张图片详细展示了有多少公司在实验室外应用了这些人工智能技术(也就是说,这些发展中的应用是建立在它之上的或者把它部署在整个公司各部门)。

第二张图片显示了人工智能技术的子类和在这些领域有所投入的公司数目。

4.jpg

5.jpg

九、面向人工智能公司的物理位置

那些采用人工智能技术的公司的实体存在地非常两极分化,比高科技公司的普遍分布趋势更明显。比如说,之前 The Big Data Market 的报道显示大数据公司在地理上的分布要比人工智能公司更分散。也许我们能猜到奇点会从哪里产生。请看下面这张统计了每个州公司数量的示意图。

6.jpg

十、总结

人工智能已经脱离寒冬,正走向繁荣的新春。虽然人工智能在相当程度上仍然处于婴儿期,但是基于任务的人工智能拥有的前景和最近取得的成就已经引起一片狂潮。一些像网络智能( cyber intelligence )、市场营销和自动化生产这样专业的应用案例已经有上市的基于人工智能的产品了。通用问题解决和医疗应用是人们谈论的热点主题,但没有太多公司在这些领域有投资预算。

人工智能的崛起是由大约五年前政府和个人对大数据技术、云架构以及最重要的人才储备的投资所触发的。就在最近几个月,像亚马逊、特斯拉和谷歌这样的大公司高度重视人工智能,将其视为公司内部接下来十年的创新推动器。但是只有一小部分核心公司在全面采纳人工智能,而且在美国运营的在这一领域附近四处投资的公司不到 1500 家。尽管这只是行业内的一小部分,但是率领这场运动的公司是最大和最聪明的,而且当然也会从实现人工智能的过程中收获(或失去)最多。

产业产业报告美国投资