Alluxio CEO李浩源:构筑数据流动的高速公路

Robin.ly 是一个全新的视频内容平台,旨在为广大工程师和研究人员提高对商业、创业、投资和领导力的理解。本期是Robin.ly创始人Alex Ren采访Alluxio 创始人,李浩源博士

以下为采访实录摘要:

Alex: 大家好,我是Alex Ren,是Robin.ly和TalentSeer的创始人。今天是我们Robin.ly Entrepreneurship Talk第二讲,荣幸地邀请到了知名大数据初创公司Alluxio的创始人及CEO,李浩源博士来做分享。介绍一下Robin.ly,它是一个新的视频内容平台,主要目的是为了提高工程师和研究人员对于leadership,entrepreneurship和AI的理解。通过邀请知名投资人,创始人,AI领域的科学家学者,以及一些业内领袖分享他们的经历,以此增进大家对于这些内容的理解。介绍一下李博士的背景:毕业于北大,康奈尔和UCBerkeley,获得UC Berkeley计算机博士学位。他的导师之一Ion Stoica是Databricks的founding CEO;另外一位导师,Scott Shenker是IEEE的工程院院士,也是以前一家startup,Nicira的创始人,Nicira后来以12亿美元被VMware收购。李博士是Tachyon和Spark Streaming系统的作者,也是Apache Spark的founding commiter。他曾经在Google和Conviva等公司从事过data mining相关工作。2015年李博士创立Alluxio时(那时公司名字是Techyon Nexus),获得了巨大的关注,并得到了硅谷知名风投人Andreessen Horowitz将近$8 million的投资。最近几年Alluxio获得了长足的发展,目前开源社区也越来越大,是现在主流的一个开源社区。今天想请浩源来分享下他对于大数据,对于AI带来的大数据的存储和计算问题,以及创业过程的理解。首先表示感谢!先请浩源解释一下Alluxio的定义,它的产品全称是memory speed virtual distributed storage system。能否通俗地解释下这是个什么系统?

李浩源:很高兴接受Alex的邀请来到这里,跟一些工程师朋友和对创业有兴趣的朋友做一些分享。回答一下问题:Alluxio系统,或者这个项目,是一个virtual distributed file system,翻译成中文叫“虚拟分布式存储系统”。这也是我当年博士项目以及博士论文的主题 。这个系统到底在干什么呢?为什么做,motivation是什么?从整个业界以及社会发展的角度看,未来的世界会是一个数据的时代。在一个数据的时代,最核心的价值本身在数据里面,这是foundation。从这个角度出发,我们当时在探索什么样的技术会对这个时代产生最根本性的改变,或者最fundamental的驱动。经过分析整个生态系统环境,无非就是两点——从宏观角度,是data-driven application,数据驱动的应用;另一个是存储领域,怎么样来存数据。这两个领域,一个是上层计算领域,一个是下层存储领域。再回来看整个数据的life cycle,绝大部分时间是在存储里面。所以很自然而然的想法就是,在整个生态系统里,存储系统会有最大的战略性意义和重要性 。

这是我们最开始的想法。但之后发现有问题。回顾过去40年的存储系统发展,基于硬件的发展以及算法的发展和架构的发展,每隔3-8年都会有新一代存储系统产生。从用户的角度看,用户会有很多存储,或者是同一个存储很多部署在自己的环境里面,所以整个数据的存储环境非常分散和混乱。而在数据时代,数据本身非常有价值,但前提是要管理好,利用好这些数据,但目前存储领域没有人能做好。因此我们做了这套系统,这个系统在计算和存储之间,可以为用户管理所有存储在不同存储系统里的数据。叫“虚拟化”,是因为我们不去真正存储,但是替用户去管理。在构建这个平台的过程中,我们起到了一个enabler的作用,在不同的存储里面管理所有数据。所以用户使用时,可能有HDFS,可能有EMC的存储,也可能有云存储,比如美国的亚马逊微软,国内的阿里巴巴,华为等。但是无论它用什么存储,这个virtual distributed file system都可以把数据虚拟化,让上层很有效地使用,访问和管理数据。

Alex您讲到了上层,你们的上层是什么?有哪些公司在跟你们合作上层系统?

李浩源:从宏观角度讲是data-driven applications。这个概念很广,现在有不同的sector。比如最开始时,这个sector只是大家今天叫的big data analytics,比如Hadoop vendors,MapR,Cloudera,Hortonworks这种公司,这是第一批的data-driven application公司。之后第二批被称作IoT,或者是machine learning 公司;这些公司去构建机器学习的应用,或者是物联网的应用,最根本在于分析数据。无论是什么应用,只要是以数据驱动的应用——这是第二个和第三个sector。前瞻的话,以后随着无人驾驶,5G的出现,无人驾驶汽车本身就是一个小的data center,并且跟终端的大数据中心会有很大的带宽。所以它本身需要很大的数据交互量,这本身又是一个新的workload,未来的workload。我用这几个例子来说明workload的趋势,以前,新兴以及未来的类型。现在很多workloads,有早期的像MapReduce,Spark,还有之后的Hive,以及又出现的Presto,TensorFlow,Caffe等。因为我们是开源软件公司,很多互联网上都有这些案例;针对可以读中文的developer,我们推出了中文微信公众号,分享了很多中文案例。

Alex: 您提到了一些AI这方面的应用,在你们创立公司之后,也就是2015年之后,AI开始热度渐长,深度学习对数据的依赖越来越大,对存储和计算资源的要求越来越高;您怎么看AI这波潮流对做数据存储业务公司的挑战?你们的解决方案是?

李浩源:无论是现在的AI潮流,以前的大数据潮流,IoT的潮流,以后新的潮流,我们认为总体的业界方向都是数据驱动。数据本身——今天大家叫business critical——对商业产生了很大的价值;到下一阶段,可能有几十年的时间,但是下一个阶段主题是life critical,现在已经可以看到一些life critical的应用,比如自动驾驶,如果数据系统不work,就会危及生命。一个实际的案例是去年在旧金山的一个用户,他们是一家大约1000人左右做基因分析的startup公司Guardant Health, 他们用我们的软件分析癌症患者的基因,之后把原来需要四周的分析时间变成了两周。看起来似乎只差了一倍的时间,但是从癌症病人的角度看是生与死的区别。所以慢慢地数据应用会从business critical变成life critical。

Some base curve大家都很清楚,从今天的fraud detection,到risk management,e-commerce,广告推荐系统,产品推荐系统——做得越好,利润越高。这就是business critical,以后就是life critical,这是核心,是整个应用的走向。只要应用是数据驱动的应用,就需要大量的数据。而从一般情况看,数据越实时,越好管理,利用的效率越高,应用的结果越好。这里会涉及到底层数据的管理,如何有效访问数据,如何节省开销,如何使想使用数据的应用更容易地更实时地使用到数据。而不是另一种方式——在用户使用我们产品之前,有很多数据在另外一个存储系统里。应用的developer需要用某个数据,需要把数据导到一个新的存储里,这个过程可能要花费几周甚至几个月的时间。我们的系统可以使developer马上用上数据,这就是质的区别。同样两家公司,假设都是financial service行业,数据使用速度不同,竞争力就完全不同。就好像两个国家,一个有高速公路网,一个没有,两个国家同样可以拥有奥迪,奔驰等汽车,但没有高速公路网的话,汽车跑得再快还是受到极大的速度限制。

Alex: 能否介绍下你们的solution有什么特点

李浩源:整个数据领域的兴起大概是18年前,2001-2002年的时候。当时主要是几家互联网公司发现了这个领域的价值所在,提出大数据这一概念。很多人当时也看到了这个需求,认识到做数据平台的机会,但是绝大部分市场上已有的厂商解决问题的思路是做一个更好的存储系统。拿Hadoop vender这个大数据的厂商为例,今年可能已经改变了他们的message——但是5年前,10年前,谈到类似的问题,它的解决办法就是做一个非常好的存储,很便宜且容易使用,然后告诉整个业界:既然我的存储这么好,你们应该把所有的数据都移到我的存储里面。然而它忽视了整个存储行业的发展规律,每3-8年都会有一个trend——基于硬件发展以及架构革新的前进,总会有更好的存储系统出现。今天是云存储,或者叫面向对象的存储(object store),取代8-10年前流行的大数据存储HDFS。 

我们提出的这个概念是,不想做一个更好的马车,而是做一个汽车。将最根本的要做的事情进行了替换——不再做传统的存储,而是虚拟的存储。同样的philosophy也被用在了不同的领域。我博士论文做的Alluxio的概念叫VDFS,virtual distributed file system。这是拿PC时代发展举的例子。比如,现在我们用ipad或者任何pad,无非是为了发邮件,办公,看电影,玩游戏;并不需要关心邮件系统底下到底是如何设计的,也不需要关心ipad里面的CPU是谁产的。

从数据时代来看,这些应用以及应用的人关心的就是两件事情:第一,要把一个数据放进去,第二,晚些时候要读数据时候能读出来,在这个前提下,让剩下的事情尽量简单高效。这就是最核心的额内容也是我们正在做的事情。

Alex: 我看到你们有一个目标叫unified data at memory speed强调的是memory speed。能否从技术角度解释一下这意味着什么为什么一定要做到这个memory speed

李浩源unified data,可以把所有的数据整合起来;memory speed是业界硬件技术的一个发展趋势。这里有两个趋势,其一是存储计算分离,在计算端和计算集群有很多memory资源,内存资源,SSD资源以及硬盘资源。如何有效地管理这些资源,这就是我们做的事情——存储计算分离。另外一个趋势是,在计算端,缓存,DRAM,或者是3D Xpoint以及NVMe这些新型的缓存技术的容量持续以指数级的方式上涨。对于大部分的应用案例,大家会发现最重要的数据量在计算端,缓存以及内存资源已经有足够能力来处理了。这个趋势会越来越明显。所以如何设计系统架构去尽可能地利用这个趋势,非常重要。我们在设计系统的第一天,整个架构就是按照以上的趋势进行的设计,因为我们相信这就是未来的大方向。

Alex我们来看看您之前的创业经历。UC BerkeleyAMPLab享有盛誉,除了很多知

名的开源产品,如Apache MesosSparkDatabricks这样的公司。您在读博士期间确定研究方向后,找到了这个痛点就做了现在的公司,这中间您有一个transition——从技术领域transit到了一个founder的角色。作为founder您就要开始关注一些商业模式和市场需求。这是一个什么样的过程,有些什么样的心得?

李浩源:一方面这是一个transition,另外一方面其实我也有一定的准备。从个人角度看,我对企业级软件比较有兴趣,也希望这种系统的创新可以被应用到不同的领域去power这种重要的infrastructure——这属于个人兴趣。基于这种兴趣,在去Berkeley之前,我在一个做enterprise software的start up Conviva工作过一段时间。做enterprise software的公司和做comsumer product 的公司有一些差别,因为很多时候comsumer company自己也是客户,可以从自己的角度去理解和思考。但是enterprise很多时候是面向企业,要专门去企业了解。所以在去Berkeley之前,我也利用了这个机会,这家公司除了做软件工程师外,也给了我很多机会去了解enterprise software,如何做enterprise software。

因此在我开始读博士以前,脑海里就有了大概的方向——要做数据,尽量和存储相关,并且在Berkeley期间慢慢找到了最终的方向。所以整个过程都对创业有一些准备和思考。在博士毕业前开始创立这家公司时,还是很不同——做公司,做项目和博士发论文本身就截然不同,会涉及到不同的挑战。

Alex我在跟您的沟通中发现您对技术痛点研究得比较深入,这个就是普通情况下founder需要做的事情。你要关注整个市场趋势是什么,技术能解决什么痛点。这也说明您读博时就已经有很强的目的性了。

李浩源:对。还有一个是当时实验室的优势,有两方面原因——其一是实验室的老师们给了博士生很大的空间和很多机会,如果学生想往一个方向走的话,你可以自己决定想走的方向。其二,整个实验室的架构非常有利于产业界和学术界的结合。当时这间实验室除了正常的自然科学基金资助以外,还有超过一半的资金来自业界,大约在硅谷数得上名字的技术公司都是这家实验室的赞助商。所以每年有固定两次每次三天,和业界进行集中交流的时间。作为博士生,实验室的研究人员,有机会去向业界展示阶段性的研究成果,他们也会给你一些意见和建议。这么一个feedback loop是一个非常有优势的点。这种关系也方便了学生在六天以外跟一些不同的公司有很大程度的交流。我记得早期的时候,我们这个项目有几十次presentation,有充分地与业界公司里权威的技术人员进行交流的机会。

Alex另外我也想到,您的导师是比较知名的成功的创业者,在学术上和创业上都做得比较成功难能可贵。您从他们身上学到了什么东西?

李浩源:因为我有两个导师,他们每个人都不一样。两个人都非常厉害。在博士期间可以有这两个导师是我的幸运。这两个人从外界的角度来讲都属于功成名就了,无论是在学术界还是产业界。最重要的是他们都非常努力,即使在这个人生阶段还是毫不松懈,他们的努力程度不亚于任何一个实验室里的博士生,非常让人惊讶。另外一个就是他们对学术和产业技术方向的观点和看法非常深入。从我的角度看,他们在自己各自的领域都是世界上最杰出的任务。所以很多时候你思考的问题是如何从根本上来推动一个领域向前发展,非常有意思。从这方面看,去尝试,做一点比较基础性的创新很有意义,这也是我跟他们学到的一点。

Alex: 那您在创业生涯中,对哪些能力或者素质比较关注?比如说soft skills,还是presentation,沟通能力?

李浩源:刚才的这些skill都很重要,我自身也需要一直提高这些技能,而且这些技能不要等到做公司那天再去学。从我个人经历看,最开始做开源软件,公司成立之前大约有五六十人,有二三十家公司,需要很多沟通,就需要对一些presentation和softskill进行提升。当然公司在发展的不同阶段也一直需要提高这些技能。做不做公司是要看一个人要走的方向,但无论是否做公司这些技能的提高都很必要。

Alex:我想这个对你们来讲可能尤其重要,因为你们不只做这个公司,而且还有个开源的社区。本身开源社区的架构和技术的推广就是你们的责任。

李浩源:对。从另外一个角度讲,这不是一个人的事情。我觉得我比较幸运的是我们公司有很多非常厉害的人,比如说现在有一个副总裁是专门负责开源社区的成长。也有副总裁是专门做产品,专门做营销。负责社区的人会有day-to-day的跟社区人员沟通,当然会有各种各样沟通上的问题,不过可以随时解决。那最重要的是有一个好的团队,架构设好了,有一个好的团队,在这种情况下会是很好的经历。

Alex:您提到了开源社区——我想您经常会出现两个身份,一个是创始人,一个是开源社区的维护者。您怎么去平衡这两个角色?

李浩源:说实话,比较难平衡。从创始人的角度看,很多时候要考虑一个技术远景。从公司CEO的角度看,有很多的日常运营以及代理公司的问题,这两个角色稍微有点区别。在开源社区这边,由于我们有一个很不错的团队,所以社区方面的日常运营不需要我过分参与。但是有机会的话,我还是非常喜欢跟程序员社区的成员进行沟通。我本身也是程序员背景,很喜欢这件事情,有很大的passion。

Alex:我看到市场上你们在中美两国都在推广, 我想知道在市场上有哪些进展?

李浩源目前是有很多公司在用。我们也感到非常自豪,因为各个领域最好的公司都在内部使用我们的软件做越来越重要的业务。比如,我们采访的大部分听众是中国的程序员背景,从中国国内的角度看,中国目前按市值来排名的最大的前十家互联网公司里,有九家在产品线里使用我们的软件,很多也是公开地积极地参与到社区的活动里。我们的微信公众号里也有一些公开的案例,像腾讯,京东,滴滴,唯品会都在用,七牛,苏宁也都在用我们的产品。除了互联网行业,零售行业使用也很广泛。目前使用最多的几个行业是互联网,零售,包括e-commerce,还有电信行业——特别是中美顶级的最好的三家电信公司都在用我们的软件——当然还有金融服务行业,比如在美国和亚洲地区规模最大的银行也在使用我们的产品。这也是我们目前觉得很自豪的事情: 我们的技术和产品可以得到这些很重要公司的认可,我们的产品能够让他们成为他们做很重要架构时的一个应用。

Alex大数据创业几年前就已经开始了,现在应该已经有像你们这样做到有一定的attraction和客户revenue的社区的一个情况,您怎么看Alluxio下一步的发展,未来三年的目标是什么?

李浩源:首先,大数据这个词被几个大数据厂商使用过度,成为了coin term。从这个角度讲,我们不认为自己是一家大数据公司,而是一家数据公司。区别在哪里呢?大数据公司大家认为就是做大数据分析,像Spark,MapReduce,Hive;而我们做的其实叫data-driven application,只要是数据驱动的应用我认为都可以跑在我们的平台上面。所以说我们是一家数据公司。这是我对未来的一个看法。

未来3-5年,在我刚才提到的几个领域,中美之间还有整个亚太地区,最领先的产业公司大部分都在用我们的产品,所以希望两方面:其一,从3年的角度看,有更多行业的顶级公司使用我们的产品,在它们的数据架构里面充当一个很重要的位置,这是从扩展行业的角度讲;其二,在已有的行业里,希望有更多的公司使用我们的产品,也希望我们的社区发展得越来越大。因为如果想作一个市值标准的话,社区发展是非常重要的指标。开源也是基础架构型软件未来的一个必然趋势。目前很多世界领先的500强公司在选择基础架构型软件时,一定要选择一个有开源背景的软件。所以我们从使用角度来讲要做到广和深,从技术角度来讲,要慢慢走向一个更加成熟的平台型技术。目前的系统从长远讲还有很多挑战,这也是令开发人员以及社区人员非常兴奋的一点,因为有新的东西可以做。我坚信这个系统会越来越丰富,越来越成熟,我们有一个长长的用户需求列表,希望这个系统可以越来越全面,走向对系统定位更成熟的方向。

Alex:今天倾听了浩源对整个数据行业发展的介绍,包括您所说的数据驱动的应用,整个生态,以及AI起来之后对行业背后的存储和计算带来的挑战,特别是他作为一个startup的founder,怎么从一个researcher的角色过渡到一个创业者的经历,有很多的思考渗透其中。希望大家关注Alluxio的社区,如果有兴趣解决冲突的问题,也可以多了解他们的solution,加入他们的开源社区平台。

另外李浩源博士,受邀在201812月6日中国大数据技术大会(BDTC 2018)主论坛上,作题为“Alluxio—统一化分布式虚拟文件系统”的主旨报告,敬请期待!同时也可以多关注我们Robin.ly平台里边的内容,后期会有更多类似的分享。谢谢!

李浩源:谢谢大家,谢谢Alex!

Robinly
Robinly

Robinly团队坐标硅谷,从创业、领导力和人工智能三个角度去剖析成功创业者、高科技领导者、人工智能科学家和知名投资人的职业养成过程和他们对于这些领域的观点,我们力求追本溯源,为广大工程师、研究者提供一手的职业学习内容。

http://www.robin.ly
专栏二维码
产业自动驾驶深度学习推荐系统李浩源Alluxio机器学习
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
艾恩·斯托伊卡人物

罗马尼亚裔美籍计算机科学家,ACM Fellow,研究分布式系统、云计算和计算机网络,提出了Spark系统。他是加州大学伯克利分校计算机科学教授,曾任AMPLab联合主任,现任RISE实验室主任(该实验室的前身是AMPLab)。他与Apache Spark的其他原始开发人员共同创立了Conviva和Databricks。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

Apache Spark技术

Apache Spark是一款快速、灵活且对开发者友好的工具,也是大型SQL、批处理、流处理和机器学习的领先平台。它是一个围绕速度、易用性和复杂分析构建的大数据处理框架,提供了一个全面、统一的框架用于管理各种不同性质(文本数据、图表数据等)数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。

SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

MapReduce技术

MapReduce,一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是其主要思想,皆从函数式编程语言借用。它还借用了矢量编程语言的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

暂无评论
暂无评论~