专栏 | 人工智能,机器学习和数据是未来生产力的驱动力

By 机器之心2017年1月03日 12:27

不久之前,机器之心编译高盛发布的重磅人工智能报告,引起了业内的极大关注。 日前,联想创投集团香港大数据研发中心负责人陈嘉在微信公众号技术深港(deep_harbor)上发表系列文章,对此报告进行了详细解读。机器之心经授权发布此系列文章。

作者简介:

陈嘉,现为联想创投集团香港大数据研发中心负责人。具有十多年机器学习、模式识别的研究和工程经验。

本科毕业于清华大学自动化系,在香港科技大学计算机系获得博士学位。

曾联合创立一家模式识别技术公司,后在百度移动广告部门担任资深算法工程师,在华为诺亚方舟实验室担任研究员。

发表多篇学术论文,持有多项美国专利。

个人主页:http://www.jiachen.org

微信公众号:deep_harbor

开篇

即将过去的2016,可能是过去几十年里边,人工智能这个词炒的最热的一年。最近几年在技术上的各种进展,都没有一场围棋比赛让普通人对人工智能的影响如此的深刻。

下图为deep learning这个关键词在Google中的搜索热度趋势,一年多时间的增长趋势一定程度反映了公众的关注度。

41.png

在技术圈之外,全球的的各种机构纷纷开始关注技术本身的发展,技术对商业和社会领域产生的影响。例如白宫在今年6月发出了一个针对人工智能的“征求意见稿”,并且在汇集了大量反馈之后在10月发表了一份白皮书:Preparing for the Future of Artificial Intelligence 。

高盛(Goldman Sachs),作为金融行业的巨无霸,也在11月发表了题为“AI, Machine Learning and Data Fuel the Future of Productivity”的一期行业研究报告,这份报告近期开始在朋友圈里流传。

我其实一直希望把我所理解的人工智能给大家介绍,但是一来文笔生疏,二来担心功力视野不够,这么一个庞大的话题怕是把握不住。

这次读到高盛的报告,觉得是一个好的契机,在督促自己阅读和思考的同时,把这些年的经验和体会一并记录下来,供大家参考。而且更加促使我做这件事情的原因是,我发现不少公众号抢先翻译了这份报告的目录和小部分章节并发表出来,然后断章取义的抛出了一些抓眼球的观点。一份长达99页的报告,其中的信息量是远远大于那些一分钟快餐式的公众号文章的。我们应该以一种更严肃和认真的态度,来理解和认识这场正在进行中的技术浪潮。

今天这一篇,作为开篇,我想先讲一讲这份报告的封面:

WX20170103-120516@2x.png

”科学技术是第一生产力“

我在朋友圈分享过这个封面,其中的摘要文字,是经典、精炼和异常准确的。核心就三句话:

1) "we examine how advances in machine learning and deep learning have combined with more powerful computing and an ever-expanding pool of data to bring AI within reach for companies across industries."

这里边点出了让AI变得不那么遥不可及的几个要素,1)算法:machine learning & deep learning;2)计算能力;3)庞大且同时在增长的数据。

我曾经也在不同场合特别强调了促进AI进步的就是这三大要素。而且我个人看法,一个AI的从业人员,必须要同时具备这三方面的能力,一个AI公司也是有同样的标准。所以对于随便一家什么公司都声称自己是AI公司,我始终持保留意见。大部分这样的公司,仅仅是触及了其中一个方面,顶多应该自称“AI相关公司”。

从投资者的视角来看,哪怕投资“AI相关公司”,其实是一个不错的选择,但是要非常清楚的认识到它在领域内的定位和长短。比如过去几年内股价成倍增长的NVIDIA,是提供计算能力的公司。在算法上,他可以通过智力储备来提升,但是不会成为突出的竞争力,数据方面亦然。

2) "...AI-as-a-service has the potential to open new markets and disrupt the playing field in cloud computing..."

最近我跟人开玩笑说,云计算喊了很多年,结果大数据火了;大数据喊了这几年,结果AI火了。从需求总量上讲:云计算>大数据>AI。从关键核心业务带来价值的可能贡献上讲:AI>大数据>云计算。从解决问题的难度上讲也是后后面这个顺序。

云计算这个基础架构的用法在不断的发生变化,例如AWS推出的大量GPU服务器,以及集成深度学习框架MxNet的流程,例如微软开放的Machine Learning Studio,例如阿里在人工智能上的大力投入,哦,对了,Salesforce今年收购了一家提供在线机器学习API的公司。这些,都反映了巨头们对未来用户需求的预判。

3) "...ability to leverage AI will become a defining attribute of competitive advantage for companies in coming years and will usher in a resurgence in productivity"

刚才提到的客户需求,其本质是AI可能对用户核心业务产生的贡献,我这句话讲的很空。但是高盛用一个词形象的表达了这一点,这也是出现在标题中的词:productivity。

AI技术并不是魔术,它只是一个工具或者一种技术手段,它可能帮助提升生产力/生产效率。在这个数字化和数据化的时代,各行各业的生产力都有可能被AI技术所提升。是否具备这样的工具,可能类似于一列火车是烧煤还是用电,一名会计用算盘还是用计算器... 因此不论哪个行业都如此关心AI技术也就不难理解了。

究竟什么是人工智能

进入高盛这份研报的正题之前,我们先看一条很有意思的twitter:

42.png

这条twitter非常到位的反应了企业级用户对于人工智能技术的期望、实际的应用问题、技术能力三者之间的矛盾。甚至有多篇文章引用了这个说法,来印证人工智能的泡沫。

人工智能到底对企业有哪些作用,到底有没有泡沫,并不是一个很容易回答的问题,我们需要先从人工智能是什么开始说起,高盛的报告中有两处解释:

1) AI is the science and engineering of making intelligent machines and computer programs capable of learning and problem solving in ways that normally require human intelligence. 

2) Artificial intelligence describes a science of simulating intelligent behavior in computers. It entails enabling computers to exhibit human-like behavioral traits including knowledge, reasoning, common sense,learning, and decision making

我个人更喜欢第二种说法:人工智能是一种用计算机来模拟/模仿智能行为的技术。

参考Wikipedia的解释,人工智能涵盖的内容非常的广泛,包括逻辑推理、问题分析解答、知识和常识的构建、语言能力、规划控制、学习能力、感知社交、运动、创造力、认知和情绪等等。

普通大众心目中的人工智能是“强人工智能”,也就是近乎复现人的智慧,而事实上技术能够达到的,暂时还是其中一小部分。

我特别喜欢用机器智能这个词,来形容目前人工智能的水平。

插播一段回忆:N年前某研究院的实习生笔试题目,某师兄出题问对人工智能的看法,我当时写了,不用非要去逼近人的智能,要让机器做机器擅长的事情...

我最近几个月反复对外讲的一页PPT忠实的继承了当年的思路:

43.png

机器最擅长的事情是什么呢?一是存储,二是计算。所以但凡要死记硬背的东西,机器可以比人强。

死记硬背不是不好,人的学习也是从死记硬背开始的,以我养了两个孩子的经验,非常确信这件事情。可是光拼记忆力是不行的,成绩好的小孩,除了必须要记性好,还要“聪明”。

从下面这幅图,你看到的是什么,是一堆毫无关系的点,还是一条直线?这里的点,就是数据,而直线,则是模型。一个模型可以简化数据的存储和计算。

给定数据,推算出模型,并且把模型应用到实际的问题中,bingo,线性回归就是一个最简单的“人工智能”应用了(回应篇头的那条twitter)。

44.png

数据是客观问题的量化表示,很明显,上图中这么简单清晰的数据排列,是极少出现的,通常遇到的问题是这样:

45.png

或者这样:

46.png

遇到这些复杂情况的时候,就需要用到更为复杂的模型来刻画数据、刻画问题,而这已经是机器学习技术的雏形了。

Machine learning is a branch of artificial intelligence and entails enabling computers to learn from data without 

being explicitly programmed.

Deep learning is a type of machine learning which entails 

training a hierarchy of “deep layers” of large neural 

networks, with each layer solving different aspects of a 

problem, allowing the system to solve more complex 

problems.

之所以我极力推荐高盛这篇报道作为科普材料,是因为他把很多概念解释的很清楚,不像如今相当多的人把稍微相关的技术都忽悠成人工智能。比较准确的说,机器学习是人工智能的一个子领域,而深度学习是机器学习的一种实现方式。

47.png

看到这里,你会不会有一点失望,技术上可实现的人工智能并不如想象那般激动人心?事实上,恰恰因为最近十几年间工业界和学术界把更多的精力集中在数据驱动的机器学习和深度学习领域,做了大量务实甚至工程化的工作,才带来了多个领域的应用突破。而大家越来越相信,深度学习是让机器最有可能接近甚至超过人的某些方面智能的路径。

决胜人工智能的三大要素

人工智能的军备竞赛已经如火如荼的展开了,各大巨头到底在争抢什么,先来者如何保持优势,后来者如何追赶?

48.png

高盛报告中强调了人工智能在近年得到飞速发展的几个原因是:数据、计算力和算法。翻译过来,如果要在人工智能领域获取一席之地,需要具备如下的条件:

  1. 已经拥有数据或者具备获取数据的能力;

  2. 持有/使用计算资源;

  3. 善于设计和优化算法的人才;

人才

21世纪最贵的是什么?是人才。

毫无疑问,人才的重要性是第一位的。

人工智能技术门槛不低,真正理解核掌握AI技术的人,无不是经历了长时间的学习和磨练。和计算机领域其他方向的博士专业类似,人才培养需要一个周期,并不是简单的上两门在线课程做一些习题就能出师。在突然变旺的需求下,人才变得异常紧缺。这个方向上无论是刚毕业的博士,或是有资历的专家,获得的薪酬都远远大于他们的同学或者同事。

最近听到一些信息和八卦之后,我产生了这样的自相矛盾的疑虑:

这些大公司给AI资深专家的薪酬水平与AI创业公司首轮融资额度相当了,那么AI的泡沫到底是存在还是不存在呢?

关于人才荒,高盛的报告中这样讲道:

AI talent is in high enough demand that “acquihires” are still a common means to acquire necessary talent.

报告中整理了近年来的人工智能相关收购,其中不少的收购都是为了人才。

49.png

数据

数据,在AI时代为什么这么重要,是因为大量的数据才能防止过模型的过学习(此处术语比较专业),才能获得好的效果。

Data is the key input for AI. Deep learning effectiveness in particular is linked to larger datasets, as larger data sets prevent models from becoming over-fitted.

其实数据一直都非常重要,但是过去能被研究者利用的数据实在太少了。

50.png

在近十年传感器技术普及加上互联网盛行的环境下,数据的产生和流通的速度都大大加快了。以人脸检测为例:

Tomas Poggio在1995年发表的文章Finding Human Faces with a Gaussian Distribution based Face Model,用到了4150张人脸数据,Paul Viola 在2001年的经典论文Rapid Object Detection using a Boosted Cascade of Simple Features 也仅仅用到4916张人脸。

而Facebook在2014年发表的DeepFace用到了几百万量级的人脸做训练,Google在2015年发表的FaceNet,据称用到了上亿的人脸样本。

充足的数据配合了大容量(capacity,之后找机会详解)的模型的模型,在语音识别、图像识别、文本理解、翻译等各个领域都产生了突破性的进展。

而近年来也涌现了各类专业的数据抓取公司,数据交易公司,这就是淘金潮里边,卖水的一批人了。

关于数据,还有一个有意思的话题,仿佛机器学习需要大量的数据,而人的学习似乎只用少量的数据?我会在晚些时候准备一篇文章,探讨这个问题。

计算资源

关于计算资源这个话题,贴一个NVIDIA的股价走势图吧。虽说最近有机构分析认为股价有20%的泡沫,但是相比涨幅而言,算不了什么。BTW,NV最新的显卡TITAN X依旧在限购中。

51.png

所有提供云服务的公司,Google,Amazon,Microsoft,甚至阿里巴巴,在努力的通过提供软件框架、产品来让自己的计算资源变的AI friendly。

另外一些厂商,例如比特大陆、深鉴科技,以及地平线,在做深度学习相关的芯片。这些厂商的努力重点在于降低计算的成本。

无论是产生更高性价比的计算资源,还是更好的利用现有的资源,都是非常有价值的事情。


声明:本文由机器之心经授权转载微信公众号技术深港,禁止二次转载。