第四范式戴文渊:模型复杂度要与数据量相匹配

12 月 17 日,第四范式创始人戴文渊在 2016 中国人工智能产业大会现场,做了题为《AI+:赢在维度》的主题分享。

从亚马逊颠覆沃尔玛案例的启示,到为什么奥卡姆剃刀不适用于神经网络,再到迁移学习的重要性,戴文渊都给出了自己的见解和答案。

以下为机器之心整理的现场分享内容,以飨读者。

戴文渊副本.jpg

亚马逊颠覆沃尔玛,靠的是人工智能

AI 在今天是非常火热的话题,但是在我进入到 AI 的时候,人工智能是当时选择当中最冷门的专业之一,也是计算机领域最冷门的专业之一。甚至我们在做第四范式这家公司的时候,都不太跟客户讲我们是人工智能的公司。我们得跟客户讲,我们是一家大数据价值挖掘公司,不然他就会说「人工智能我们不关心,没有预算」。

今天人工智能包括深度学习被大家讨论得比较多,这些技术为什么会对我们有帮助,究竟在什么地方能够去改变这个世界,这其实是过去研究得比较多的。我自己的专业更多是在看不见摸不着的人工智能,而不是看得见摸得着的无人车这些东西。

今天我想分享一个案例。去年,亚马逊的市值超过了沃尔玛。可能很多人觉得亚马逊超过沃尔玛是互联网颠覆传统企业,这背后其实是人工智能。

沃尔玛是一家很先进的公司,大家在看数据挖掘教科书的时候会有一个案例叫《啤酒和尿布》,这个案例是从沃尔玛出来的。上个世纪 90 年代沃尔玛已经做到了自己的数据,使得每家店铺货柜的摆放不一样,这么先进的一家公司怎么会被亚马逊超过呢?

我们换一个视角看这个问题。沃尔玛做的是每家店的货柜摆放都是基于这家店的数据来定的,亚马逊做的是什么?在 2010 年之前是基于数据让每个人看到亚马逊的商品都是不一样的,是给每个人开了一家店。亚马逊有 3 亿多的用户,而沃尔玛有一万多家店,所以我们看到亚马逊在解决一个比沃尔玛复杂 3 万多倍的问题,这个解决的思路其实双方是差不多的,都是开很多家不一样的店。但是要解决 3 亿多家店,不太可能人工去设计布置 3 万多家店,需要由机器解决。机器比人擅长的是什么?机器没有精力的局限,人不是说如何去开更多的店,而是人没有精力开那么多店,用机器解决就是人工智能帮助亚马逊超过沃尔玛最重要的地方。

在仓储这方面,亚马逊也在解决更复杂的问题。沃尔玛的仓储是一个仓库,所有的保管员、仓库配货员都会去仓库整理东西。但是亚马逊的机器人是你需要这个货物就搬过来,如果亚马逊有个 N 个配货员就有 N 种不一样的货架,这个摆放也是基于数据来做的,最后造成亚马逊比沃尔玛效率提升 4 倍。

未来的机会不在于圈客户,而是做得更好

过去我们谈互联网、移动互联网,现在谈人工智能。互联网和移动互联网时代有大量的空地,做一个网站可以圈一批客户,做一个 APP 可以圈一批客户,而到今天这个机会已经没有了。未来的机会在哪?不是说还有更多的客户可以去圈,而是我可以做得更好。如果要让一家企业做得比竞争对手更好,就会把预算抢过来,就像亚马逊从沃尔玛那边抢过来一样。

还有一个案例是脸书。其实它刚上市的时候股价是一路往下走的,我在 2012 年面试过一些脸书的工程师,我面完了以后就知道他们不是不能赚钱,而是当时的技术不足以很高的变现效率。当时我问了工程师一个问题,脸书的广告有多少的变量?他们告诉我有两千多的变量,于是他就没有通过面试。

因为我们当时已经做到了一百多亿的变量,这是巨大的差别。但是脸书发生了一个很大的差别,这是谷歌帮了他们,谷歌印度人与白人团队的战争使得白人团队到了脸书,帮助他们从变量数从两千多个提升多了两千多亿个变量。这让脸书的变现能力大幅度提升,之后他们的财报都超过了华尔街的预期。

所以这里很关键的地方是维度,原来是用机器学习也是用大数据做广告模型,但是做得不够高不够细。如果能够把维度做得更高,就能做得更精细,效率就能提升,获得更多的广告市场。

数据量变大了,模型的复杂度要和数据量匹配

今天已经不再是亚马逊,谷歌或者 BAT 的时代。如果退回五六年前做 AI,就只能去 BAT,在美国可能会发生谷歌脸书这样的故事,到了今天其实更多的企业拥有数据。

这个案例是我们给深圳的一家股份制商业银行做的,我们帮助他做什么呢?他们有很多的营销数据,历史上有大量的客户办分期或者不办分期,要去精准识别他们的客户中哪些是分期客户,我们基于数据帮助他们更好的识别。这里有一个比较重要的对比,过去他们也是做营销的,但是模型维度只有两百多个。而我们通过数据、通过机器学习,帮助他把维度提升到了五千万。从两百到五千万的精细营销,甚至可以帮助他发现一些业务规律。

前面讲到几个案例,最大的差别就是过去我们做的是低维的事情,而现在做的是高维的事情,这可能跟我在学生时代学习的一些基本原理是相违背的。过去我们学数据挖掘时有一个奥卡姆剃刀原理,它讲的是尽可能简单,不做深维的事情。而我们现在不是做化繁为简,而是把问题做复杂。比如说奥卡姆剃刀原理区分红点和蓝点的时候,到底是选择绿色的线区分还是黑色线区分?过去的教科书是说黑色比绿色好,现在我们认为是绿色比黑色好。为什么?过去的奥卡姆原理在做神经网络的时候,为什么要把神经网络去控制在三层以内,是因为那个年代的数据量不够,不足以支撑把数据做大。在数据量不大的时候,我们要化繁为简。

真正统计学习的基石并不是奥卡姆剃刀,而是叫 VALIANT 引理,公式比较复杂,我们就理解成模型的复杂度和规则数,要与数据量相匹配。通过这个原理我们可以知道,为什么过去做的模型简单,为什么神经网络要深度学习,重点的原因就是现在数据量变大了,模型的复杂度要和数据量成匹配。

但为什么牛顿提的是三大定律而不是三百三千定律?是因为人的记忆是有局限的,人脑里装不了大数据,所以产出的是简单的模型。为什么过去的算法也很简单,过去做决策,要减到五千以内,其实很重要的原因是过去的数据链有限。我之前做的最大的数据级是 21578,因为数据量的限制所以当时做不了特别大的模型。

但是今天时代变了,我们从互联网上可以获得大量的数据,传统企业也有大量的数据。比如说华大基因要测百万人的基因,中石油每天探测回来的地震波有 500T,招行每月会有几亿的交易,这些都是非常大的数据。这时候如果套用 VALIANT 引理的话,数据量大了,模型会复杂。牛顿三大定律交给计算机做会怎么做?可能不是三大定律,可能是做速度区间划分,如果说总结出三千万个定律的时候可能就不需要相对论了,这就是大数据时代,我们怎么让机器做到一些不一样的事情。

VC 维,衡量模型的基准

从工业界来说,如果我们企业内部做人工智能指导企业经营,最重要的就是要去做高 VC 维模型,不断提高模型的维度,使得 training loss 和 test loss 不断的降低。

前面讲的概念会比较偏理论一些。VC 维度是什么?大脑的维度大概就是大脑脑细胞的个数,所以为什么人比狗聪明,狗比蟑螂聪明,因为人的脑细胞比狗多,所以可以把 VC 维度理解为脑细胞维度。这就可以理解,为什么要把机器的维度做高,因为机器的维度也需要更多的脑细胞,才能更聪明,才能学习更多的知识。

ImageNet 比赛中,每年冠军的错误率都在降低,但是每年冠军模型的 VC 维都在提升。为什么错误率会降低?是因为模型的维度在提升。随着模型维度的提升,我们的误差开始降低。

今天为什么要做深度学习?深度学习其实是一种更好的去把 VC 维做高的算法。为什么要做强化学习?强化学习是一个不断的把 VC 维做得越来越大的模型。这里的例子是谷歌的 AlphaGo,如果只做深度学习,那只有 30 万局棋;强化学习以后,通过自己和自己下,不断地去提升,最后能够达到 8000 万局棋。这就是今天强化学习要做的事情,把维度做大。

为什么迁移学习很重要?

现在也有人在讨论迁移学习,迁移学习要做什么?不是所有场景都有大数据,比如医疗,再比如今日头条其实不是在做个性化,而是做迁移学习。今日头条最强的是他能拿到和你相近的人的数据来帮助到你,如果头条只有你的数据,绝对不可能将你服务好,而是可以找到很多跟你相近的数据。每个人提供的数据是有限的,真正的帮助是来自于周围,迁移学习就是小数据也能做到高维度。

另外一个例子是领域的迁移。举例来说,比如我们现在关注金融资产,资产几十亿上百亿。做小额信贷数据量非常非常大,但如果做大额信贷比如说房贷,就不会有多大数据,也就很难用深度学习来做。迁移学习恰恰可以利用各种各样的信贷数据,无论是大额信贷还是小额信贷,帮助提升模型的效果。我们利用银行的小额消费金额的数据,帮助他们做汽车贷款,用别的领域的数据来帮助提升营销效果。

所以迁移学习要解决的是小数据实现超高维。另一个数据是专家经验,如果既没有数据,又没有其他领域的知识,我们还可以用专家经验来降低数据的使用量,提升小数据的模型维度。

创立第四范式的初衷,是让人工智能在产业发挥更大的作用

我们今天讨论人脸识别或者无人车、个性化推荐,有人讨论深度学习、强化学习,都在解决一个问题——维度。第四范式其实是由一群人工智能科学家、工程师创立,我们过去一直在帮助企业利用人工智能技术提升企业经营的效率以及业绩。这个团队曾经帮助过百度、今日头条搭建人工智能系统,百度也评测过我们的系统能够帮助他们提升 8 倍的效率。今日头条的系统上线,客户的留存度超过了其他的竞争对手。

但是今天我们并不想做百度或者头条,我们想做另外一件事情。作为人工智能领域的长期从业者,我们希望能推广人工智能技术,在产业界发挥更大的作用。所以今天在做人工智能服务企业的事情,我们也有一些行业包括金融领域的专家。

虽然说今天人工智能很火,看上去很高大上,我们也会谈高大上的话题,但是我们也要脚踏实地,不能光高大上不脚踏实地。所以我们也会注重每个行业的专家,把人工智能先进的技术和行业结合好。我们最骄傲的地方是机器学习领域的技术领先性,包括我们的架构师,设计过迄今为止中国最大规模的机器学习系统、全球第一个商用深度学习系统和全球最大的深度学习系统。

我们想把这个能力推广给全社会的每家企业。现在大家会说人工智能难做,机器人难做,或者顶级科学家少。其实顶级科学家并不少,每年毕业的博士生没有上万也有几千,但是为什么不能落地?

人工智能要在产业落地需要五大条件,首先是要有数据,要有明确的业务定义,也需要懂算法,要懂如何去设计架构,要懂得如何设计产品。所以人工智能真正在产业落地,不是顶级科学家的事情,而是五项全能的事情。

我们要解决的是减少前提条件,解决科学家的问题,解决计算资源的问题,解决外部反馈的问题,让一家企业只要有 IT 专家和普通的业务专家,就能够把模型做出来。所以今天我们的定位是让 AI 触手可及,谢谢大家。

入门第四范式戴文渊创业公司产业演讲迁移学习神经网络
暂无评论
暂无评论~