对话阿里副总裁贾扬清:阿里技术体系的开源策略与思路

今年三月,知名 AI 青年科学家贾扬清从 Facebook 转战阿里巴巴,引起行业热议。外界普遍猜测认为,阿里巴巴尚缺乏一个高效且易于使用的深度学习平台,贾扬清的加入,将帮助阿里解决这方面的问题。

在这次贾扬清的公开亮相中,其在阿里的工作方向疑问终于解开,同时指向了阿里在大数据与人工智能技术层面的发展方向与策略。

当下,阿里的发展重点并不在框架,而是平台,并且「开源」的精髓——吸引更多开发者来壮大社区和体系——将作为一颗种子深埋进阿里的技术发展战略中。

撰文 | 四月

本周,阿里云峰会开发者大会在上海开启。在开源大数据专场上,阿里巴巴集团副总裁、阿里巴巴计算平台事业部总裁贾扬清向开发者们就阿里将在开源社区以及开源服务的布局做了精彩介绍。

贾扬清,知名 AI 青年科学家,今年 3 月加盟阿里后首次公开亮相。他是 AI 深度学习框架 Caffe、Caffe2、Pytorch 的重要贡献者之一,并曾参与谷歌人工智能平台 TensorFlow 的工作,作为 GoogleNet 作者的之一。

截至 2017 年,Caffe 2 是最快的深度学习解决方案之一。可以说,贾扬清深受全球 AI 开发者喜爱的重要原因之一正是其身上自带的「开源主义」精神,而现在,他将其注入进阿里大数据及中国的开发者生态。

贾扬清谈道,阿里云的开源策略将沿着共存、共生、共赢的路径发展。

无论是备受关注的大数据、人工智能技术领域发展,还是放眼到全球各类基础 IT 技术的发展与迭代,开源式的发展策略都成为大势所趋,尤其近两年全球开源社区蓬勃之势不容忽视。

据 GitHub 数据显示,2018 年全球新增开源社区用户达到 3100 万用户,大于前六年新增总和;新增 9600 万个开源项目,占总开源项目的三分之一。

就中国市场而言,中国信通院企业采购大数据软件调研报告显示,中国企业采购大数据占比情况中,53.9% 的企业选择开源软件商业版,32.7% 基于选择开源软件社区版,而总计 86.6% 的企业选择基于开源软件搭建自己的大数据处理软件。

谈到阿里技术体系涉足开源生态,可以追溯到淘系业务的搭建,到今天阿里云上面向企业提供的 INS 和 Caffe 服务,阿里技术的底层系统借鉴了非常多的开源项目,从服务器到大数据以及最新的人工智能应用。

「如果没有这些开源项目,对于阿里而言要构建一个完整的业务系统将是非常困难的事情,我们非常感激,我们也非常热切地和开源系统拥抱。」贾扬清谈道。

但与此同时,阿里在将开源应用与自身业务流程整合的过程中,还发现了非常多的具体项目和方案是开源项目中尚未涉及和推出的。于是,阿里基于自身业务需求在开源项目中不断改进和设计,并将这些结果推而广之,再反哺到开源社区中去。

贾扬清表示开源项目的发展自是如此。作为典型的上一代人工智能框架,Caffe、Tensorflow、Pytorch 发展早期带着明显的学术界影子,经过工业界和学术界多年来的共同锤炼,Tensorflow、Pytorch 开始逐渐地融入工业界的典型特征,比如大规模、弹性、高性能等,部署层面也开始考虑多种环境的兼容,包括端和云。

对于阿里而言,最经典的「锤炼」例子便是「双 11」。

从 2009 年「双 11」活动兴起,经过近十年的发展,阿里「双 11」的成交规模已经从最初的千万蹿升到两千亿元,订单量达到十亿,巨大的业务压力催生出阿里技术体系必须针对大体量计算和小场景优化进行攻破。最终阿里也逐步搭建起流式计算的中流砥柱 Flink 框架。

「每个公司壮大之后都免不了碰到这些问题,现在人工智能我们也发现了类似的情况。」贾扬清谈道。

通过不断的业务压力推进系统迭代,再反哺到开源社区,阿里对于开源社区的贡献成绩可圈可点。「今年在国内 TOP10 的项目当中,阿里占其中 6 个,像 Flink 就是我们非常自豪的,拥抱开源和被开源的项目」,贾扬清介绍,如果只关注大数据和人工智能领域,阿里已经向社区贡献了超过一百万行代码。

聚焦在大数据和人工智能领域,阿里面向开源社区的贡献集中在四个层面:

1)大数据层面的实时计算,基于 Apache Flink 深度优化,支撑阿里在双 11 期间等海量的实时计算和分析任务;

2)集团内和阿里云上共用的深度学习平台 PAI。这是一个基于开源深度学习框架进行深度优化和整合的平台,关键性能比 TensorFlow 快 3 倍,完全兼容 Tesorflow、Caffe 语法,并通过底层的优化,比如通讯库优化,底层跟 CPU、GPU 跟体系结构相关优化等,实现更快的分布式模型训练和部署;

3)EMR 原生云大数据平台,比如传统的 Hadoop、Spark 等基础架构产品,对接用户在大数据场景当中遇到的需要承接开源项目的计算模式,不改变上层的软件应用系统。

4)面向商家实现商业价值的 ElasticSearch 平台。由阿里云和 Elastic 合作推出,提供企业级服务,解决平台、管控、部署等一系列的问题。

为进一步推动 Flink 社区的发展和壮大,贾扬清和英特尔方面还共同承办了 Apache Flink 极客挑战赛,并于活动当天启动。大赛由 Apache Flink Community China 发起,阿里云计算平台事业部、天池平台、Intel 联合举办。

首届 Apache Flink 极客挑战赛旨在联合众多大数据技术爱好者,聚焦机器学习与计算性能两大热门赛题,提供 Apache Flink 强大的大数据计算平台与 Intel Analytics Zoo 深度学习计算平台,帮助参赛队伍实现机器学习的实践应用,完成计算性能的优化挑战。

Flink 的核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。企业依托 Flink 技术体系建立的大数据流处理引擎解决方案,可以更合理更快速地获得计算结果投入到企业决策。

Flink 的核心团队组建了 Data Artisans,并在 2015 年初将 Flink 贡献给 Apache 社区并成为该社区的顶级项目,此后 Data Artisans 持有多个并行流的 data Artisans Platform 成为 Flink 的商业版本。

直到今年 1 月,阿里巴巴集团以 1.033 亿美元(9000 万欧元)的价格收购了这家总部位于柏林的初创公司 Data Artisans。阿里在 Flink 引入内部团队后打造了 Blink。

目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于 Flink 搭建的实时计算平台。另外,阿里巴巴集团副总裁周靖人之前宣布,阿里巴巴内部 Flink 版本 Blink 将于 2019 年 1 月正式开源,这就意味着阿里未来将会主要以 Blink 的身份来投入 Flink 的社区贡献了。

会后,机器之心参与了针对贾扬清的采访,访谈中,他不仅谈及开发者社区可以如何更好为开发者赋能,也分享了自己对于如何进一步完善「开源」制度与中国 AI 框架的创见性想法。关于他加盟阿里后的职责与工作安排,也如实做了解答。

以下为机器之心针对问答环节的整理内容。

问:我们都知道,阿里在今年 2019 年 4 月份前后正式上线了开发者社区,将包括 MVP 之类的产品都投了进去,也正好在这个时间点我们做了开发者大会,所以您怎么看大会与您这块的结合?未来计划怎么样去做开发者的生态建设和赋能呢?

贾扬清:我们从开发者社区中发现到一点,就是就技术领域而言,开发者基本上是排在第一位的,很多创新工作都是从开发者群体这里首先建构起来的。从大数据跟人工智能的角度来说,我们首先希望与开发者建立起一个互助的环境,我们看见很多开发者在做大数据或者人工智能相关的应用时,很多时间都花在怎么搭建环境,比如今天做人工智能研究,首先得要买一个 GPU 等等,都是一些很麻烦的事情,我们希望能从这方面给开发者提供价值,使其具备一个良好的开发环境。

另外,无论是在开发习惯还是效率上,云是可以把这些方法沉淀下来的平台。今天我们回过头去看一些成熟的开源开发者社区,与我国的开发者社区相比还是存在一定习惯上的差异。打个比方,硅谷的社区更愿意利用代码的及时测试等类似环境,而这些环境恰恰需要通过云才能取得较好的效果,我们希望能够帮助开发者们逐渐把这些工具搭建起来;第二是把相关的使用行为、习惯、心态建立起来,使大家在开发效率与最终的应用效率上都能有一个质的提高。

问:您觉得目前中国在 AI 这块的开发者群体的构成层次是怎么样的?

贾扬清:我觉得在 AI 这块,来自中国或者说华人开发者占比是非常多的,比如近期在 AI 框架领域做得较好的一个中国开发者,也一直在华盛顿大学带领与培养类似的社区发展。我自己也一样,在正式踏上工作岗位后,也会把这种开源的心态逐渐带到企业中去,然后与企业的开源理念一同去推进这件事情,所以我对此还是非常有信心的。

问:但在我看来这一块基本上是断层的,有一部分确实是非常优秀,但大部分人基本上可以说都在入门阶段,可以在日常生活当中去参与到的项目还是比较少的,但是他们有这种意愿,包括应该怎么入门,像您说的搭建环境,但其实对环境的要求还是比较高的,您觉得要怎么样提升中低层开发者群体的学习认知,在这方面可以怎么去做?

贾扬清:我觉得这一块不能说是中低层的关系,而是大家开发习惯上的不同,我们开发时很多时候会更加重视业务成果,这时我们就会发现,很多项目的落地要比一般开发者社区更快,但同时在设计上,包括工程效率等方面还是存在可以提升的地方。

这一块我觉得最值得做的事情,同时也是我个人对开发者社区这个工作非常有热情的原因,就是很多时候大家都没有机会接触或者了解这些开源的玩法或者说工程的实践。比如测试,大家在接触以前可能会认为这个时间花掉了,却没有看到什么成效,直到后来有个项目越滚越大后才发现,测试缺位的结果是每次部署时大家都很累,大家都绷着神经揣测项目会不会「坏」,如果说从一开始做项目时就有测试或者代码审核机制的存在,长期来说对效率的提升是有所帮助的。

这些事情从一定程度上来讲,得从心态上开始培养,或者说有了一些比较好的体验跟故事后,整个类似的流程才会逐渐建立起来。我们做 Flink 其实也有类似的感受,在跟德国团队合作的过程中,我们发现双方的开发风格存在着不一样的地方,比如说我们这里的速度非常快,很多东西可以马上推出去,但是在做代码整合时就会发现值得商榷的地方,比如是否设计得足够模块化、是否好对接,还是说纯粹嵌入式地往里做开发,就会发现不同背景的团队大家的做事风格不一样,所以我们最近做了很多事情,让两个团队互相学习对方的长处什么的。

刚开始整合时双方团队还会有些担心,但今天大家已经可以合作得非常好,通过互相借鉴对方的长处,把事情推进得更快。所以我觉得我们的社区,可以通过比如跟国际社区的合作什么的,也能从类似的经历中获得一些经验。

问:我觉得开发者的范畴如今正在变大,比如说我们看到很多企业里存在一些非 IT 类的编程,他们把这种能力作为他职业生涯的扩散培养,而且有的企业会做出来一些小东西,比如说在走访工厂的过程中我看到,本来是在生产线上的员工,如今自己已经可以做出来一些工具,包括一些小朋友能够做出 AI 谈判编程,跟阿里的开发者相比,他们算是一个定义比较广阔,但稍微更偏应用的开发者,您对这样的人群有什么样的建议?比如说怎么样能快速让他有成就感,快速对开发世界感兴趣呢?

贾扬清:我觉得这是一个挺有意思的事情。我的领导是主攻经济学的,但他最近也在学习这方面的事情,一个是觉得很好玩,因为只要有数据就可以拿来解决相应问题,另外也因为考虑到开发者是更偏向应用以及最终场景的用户,只有这样才能提供更加易于使用的开发者界面。

以前我们说到开发者平台时,更多会想到编程平台,比如说微软的 IScloud,即是底层系统的开发平台。但今天我们也看到,数据科学家的开发者平台是什么?这一块是我们想做的,比如说今天有一位做财务的同学找过来,表示想分析财务数据以及做财务预算,他要找什么样的开发者平台才能满足需求?我们之前在大数据这块就做了一个叫 Data Works 的平台,让大家可以更加简易地使用引擎,同时我们还组织了云栖编程大赛,让大家在面向数据的开发者平台上构建更简易的应用等。

过来大会以前,有支队伍做了一个非常有意思的成果,他把杭州基于位置的气象数据整合起来,然后在 DataWorks 类似的平台上做应用,第一项是气象数据的可视化,能知道地图上某个区域今天的天气是什么样的;第二项是做气象预测,只要确定前面 7 天的气象情况,就能判断出明天的天气情况。所以我们能够看到,类似的数据平台可以让大家轻松地把数据利用起来,这是我们一直在努力推广的方向,不应该只有针对系统的开发者平台,还应该包括如何应用数据的开发者平台,对吧?

问:想听您简单介绍一下,Flink 开源社区与其他开源社区相比有什么特性,或者说阿里为什么选择它作为自家开发者的一个培养土壤?

贾扬清:我觉得它跟其他许多开源社区都还蛮像的,都是有几位对某个方向特别热情的同学或者工程师,从 0 到 1 建立起项目来解决一个实际问题。阿里之所以对 Flink 感兴趣,是因为它在流计算的场景上有非常好的表现,过去我们说大数据处理,其实涉及非常多的数据处理场景,比如说晚上有大量数据沉淀在数据库的存储环境里,由此需要跑相对较长的工作时间。

很多时候我们是需要靠实时计算的,最典型比如说双十一,如果想知道凌晨 1 点的销售额,也就意味着需要快至秒级的延迟,但这一切依然需要建立在非常大的数据库基础上。为此,我们投入了大量精力在 Flink 上做相关优化,这是从我们业务的需求出发的。然后我们内部逐渐长出一个 Flink 的分支叫 Blink,说明我们对于 Flink 还是很有信心的,也看好它作为计算大数据的引擎的前景。去年我们收购了位于柏林的 Data Artisan,这样就可以第一个把自己的力量贡献到社区里去,另外也可以帮助推动 Flink 的产业和生态发展。

这就是我们对它感兴趣的原因,首先是自家的业务驱动,然后是对该社区与相应的场景非常有信心。

问:Flink 其实一直在追求统一,我想问一下您对这个统一的看法。

贾扬清:很多时候大家都在讲统一的故事,其实这是有背景的。在流计算的场景下,我们往往需要具备一个 批 计算的应用,如果这时候我们完全换一套引擎过去,其实花的精力还更多一些,所以就出现了在主要设计流的场景下,偶尔需要 批计算 的一个 5%、10% 的场景。换句话说,在每一个引擎里 Flink 会做 Blink,大家可以补齐自己的应用短板,对应用而言,等于是提供了端到端的体验,大家不需要再因为一个项目而整个数据都要挪一遍。这方面我认为 Flink 会继续加强在计算上的领先地位,同时对 批 计算、交互式查询做补齐,让用户可以在一个相对综合、以流为主的场景下,可以快速构建起自身的解决方案。我认为每个引擎还是有自己擅长的领域,至于做统一,是为了给用户提供一个更为完整的体验。

关于开源

问:上次交流到关于 Flink 的开源,据了解阿里这半年还会有开发者大赛,您也提到了您过来其实是希望能够推动国内的更多开源行为,后续阿里在开源 AI 层面的策略是什么样的?包括目标以及希望获得什么。

贾扬清:我们目前也在逐步梳理当中,目前初步的想法可以分为三块:第一块是加了云的原生操作系统,没记错的话阿里前段时间发布了最新版本,我们正在深入地与一些开源组织进行合作。

另外一块体现在前端上,蚂蚁有一个开源项目就是属于前端交互应用系列的。

第三块是我们一直很感兴趣的工具层,即是如何利用开源项目与解决方案来帮助开发行为变得更有效率。我们希望在这三块都能有所作为。第一步是完整的梳理,接下是结构化地往前推动设计。

问:阿里是希望工具包进行开源还是希望大家能够共赢?这个可以具体谈一下吗?从阿里和开发者各个方面。

贾扬清:其实大家在工业界都看到了这样的问题,比如 10 年、20 年前,无论是在国内还是国外,应用开源项目与社区的紧密程度往往决定了应用的成败。虽然每个公司都进行了所谓的模改,然而最终社区的能力和公司的能力还是相对比较分散,这是刚开始大家对开源运作模式不熟悉所造成的结果。

我认为我们今天已经从这些经验教训当中学到了足够多的社区对接经验,比如我们现在开源的一些功能,首先是有公司深入参与其中,其次大家都会把软件上的能力或者系统架构上的思维都贡献出来,并做成整套的系统方案,而不是给每个人把开源拿过去改一通。因为这样一开始的效果可能很不错,可以快速进行搭建,但可能后来就改不回去了,还可能导致我们没法运用社区的更新功能。

一起努力共同来建设,有一个完整方向,我们才能做得更好;对公司而言,它能够更有效地利用开源的最新成果,因为社区是一个很大的开发者组织,光靠公司的力量有时不一定能够很好地推出新方向;从社区的角度来说,当公司开始更真诚地参与推动发展,而不是拿完一个开源项目就不回来了,这个我觉得都是一些很好的变化。

问:现在公司参与开源的兴趣很高,但各个公司的利益诉求是不一样的,大家应该怎么样去促进技术方向的合作?

贾扬清:这是一个挺有意思的问题。大公司可能更加关注系统的效率,小公司可能更加关注开发的效率,大家经常说像阿里那么大的公司,底层系统效率能够提升 1%,就是非常大的改进了。

对一个创业公司来说,最开始他可能会关注业务迭代方面的事情,这一块从我个人的角度来看,系统设计等方面其实开始逐渐转向更加模块化、一定程度上可插拔的设计,如果有公司关注底层系统的优化,还可以与性能设计等迭代进行解耦。

在我们跟英特尔、英伟达合作的过程,包括针对 AI 框架做优化等,都是大家首先利用各自的强项给项目做共享,另外一点是,我们会做一个较好的模块化设计,让大家在往前推进项目时互不影响,我觉得这是一个可以从技术上来解决的「异中求同」问题。

问:未来您认为是以流计算为主吗?

贾扬清:未来我们将看见越来越多的流计算,包括交互式计算等应用场景。最后究竟是会以流计算还是 批 计算为主?我觉得中国在未来很长的一段时间内两者都会同时存在,这是因为两者各自场景的优化等都还比较独特,因此很难用引号来解决所有的问题。

问:能不能概括一下客户在基于一种什么样的情况下,或者说基于哪一个业务场景下才会选择阿里的大数据解决方案?

贾扬清:我觉得阿里在云、数据库等方面的一系列解决方案都能为客户提供价值。一方面是云上能够提供更稳定的环境,另一方面是软件的可用性,可以快速拉起不同软件的应用,像搭积木一样,把各种能力放到一起,然后用户可以更加专注于自身的业务场景搭建,而无需在基础设施上花费过多精力。举个比较好懂的例子,大家现在用电,谁也不会自己专门去建一个发电厂,大家会做的可能就是建一个 UPS,然后把两个电视放在那儿。

第三点是可以提供较好的弹性能力,阿里的云上拥有许多用户察觉不到的配置或能力,最典型的比如配置机器时的收麦机器和库存机器,可以在保证不断增的情况下,快速获取想要的资源。如果自身来搭建 IDC,首先要采购,加上进行部署,几个月时间就这样过去了。而云上的机器拥有非常好的弹性伸缩和部署能力,自己买机器的话很可能还处于上一代,而且买一个就只有一个;云上买的话,一个将来可以抵十个,并且可以非常快速地进行部署,这些是云上所能提供的与传统线下不太一样的能力。

问:这也意味着在做高效扩展的时候,使用云端的话可能会有一些相关的技术方案?

贾扬清:在数据不断扩大的情况下,云的基础设施可以提供一个很好的生存能力,另外它还需要大量的计算力,无论是在线还是离线等相关的,这时云上的计算能力对他来说会是更加容易获得的资源。

问:可以理解它是基于云上的处理能力?

贾扬清:从处理的角度来说,差不太多。但从用户的角度来说,我究竟是选择在云上还是线下做计算,可能软件这一层客户自己也能部署一个,但云上所能提供的首先是伸缩性,再来是软件拥有大量基于用户理解而采用的一些模式,包括系统上的一些所谓系统特性等,换句话说云上软件的性能可以提供更好的服务,无论是从价格还是从性能来看,都是很好的区分度。

问:您所在的部门是把大数据和 AI 整合到一块了吗?

贾扬清:是的,个人觉得从全球范围来看,只有少数企业会把大数据和 AI 放到一起组成一个部门,但我觉得这是一件讲得过去或者说非常有道理的事情。为什么呢?我们今天说人工智能,很大一部分原因是因为有数据。即是很多人工智能其实一定程度上可以说是一个数据智能,对吧?所以我们今天再看,发现有两种计算开始流行起来了。第一种我有时会把它叫做「智能计算」,像训练、模型迭代等;另一种是「数据计算」,即是如何把大量的数据灌到人工智能训练和推解的场景里。

把这两块计算结合到一起时,才能把整个解决方案给做出来,所以我觉得从这个角度来说,人工智能跟大数据的结合是特别自然的一件事情。

问:能把这边的产品研发架构介绍一下吗?就是比赛跟大数据两方面结合,是在朝哪一个方向做的研发?

贾扬清:这个要从研发团队的角度来说,大数据团队与人工智能团队拥有各自擅长的领域,而这些团队之间如今也在进行着紧密的交流和对接。其实我们看分布式计算,它的数据输入是通过 mini batch 进来的,从人工智能数据的角度来说,我看到的是数据流进来,从 Flink 的角度来说,是提供一个数据流出去,所以这些团队就可以通过互相合作等方式将整个链路打通。Flink 团队管 Flink 的事情,人工智能团队做人工智能的事情,这样两者之间就会有很好的对接,这是他们当下的一个合作模式。

问:说您所在的计算平台事业部和阿里达摩院有合作?

贾扬清:对,能够跟达摩院合作,其实有点躺平了的意思。

问:算法方面刚刚提到了达摩院里面设有视觉、NLP 处理,再上一层应用层还有一个数据智能,属于大脑方面的,底层还有计算基础设施,扬清这一块是平台层,基本上是承上启下的一个作用。

贾扬清:对,最底层肯定是基础架构,然后在基础架构的基础上再去构建数据库、大数据等,往上的话则是垂直的应用领域,比如说图片是一个、三元处理是一个、语音识别是一个、推荐系统是一个,这几个垂直的解决方案再往上,我们有有整合解决方案。如果今天要做城市大脑,首先它需要有 IoT 端的各种信号输入,对吧?还需要像视频理解、图像理解、整合大数据的数据分析归总能力,包括数据的控制等一系列事情,我们的上层大脑能够帮忙把不同的积木搭成一个整体解决方案,推到用户那儿。

同时用户也可以根据自己的需要在不同层级做接入,比如说有个公司只需要用到虚拟机,他可以只选择购买虚拟机,如果他只需要用到平台,可以只购买平台,总的来说是一个比较灵活的处理模式。

问:就 AI 框架领域来说,在您加入阿里之后,中国的 AI 框架会面临什么样的变化?

贾扬清:从几年前来看,大家好像一谈到 AI 就自动把 AI 等同于 AI 框架。从今天来看,我觉得整个 AI 工程解决方案做出来,其实只属于框架中很轻的一部分。好比说计算机编程领域的 C++,它就像今天的框架,属于比较好用的语言,但光有它是远远不够的。再比如说 Pytorch,它真正的价值体现在,一个是拥有非常好的生态,一个是拥有非常多的科学计算和外部服务等。所以说这一块从框架开始,往上和往下都有更多的领域需要我们给予更多关注。

今天我们看 TensorFlow 类似的框架,它的国家属性没有那么强,更多是作为一个开源的领域,其次它提供了更多工具来促进更多的系统和应用创新。系统上的创新比如怎样做高性能的计算、软硬件的协同设计,包括今天我们看到一些模式指导我们做新的芯片设计,怎样把新的芯片更好地嵌入到 AI 芯片里去,是往下应该主攻的方向。

往上做的话,框架本身其实没有提供太多关于怎么做大规模训练的指导,包括模型的迭代等,所以我们现在关注的一个是拥抱框架,一个是把 AI 整个链路做出来,这里举两个很好的例子,前段时间阿里开源了一个叫做 MNN 的引擎,可以让我们更好地在手机端,包括嵌入式端来运营模型;我们还有个项目叫 XDL,试图解决怎么构建大规模的吸收化推荐系统的问题,这个建模是很多框架上面是非常欠缺的一层。换句话说,框架上可以做这个东西,但需要有一个高层框架,或者是跟业务更加相关的框架来解决这个问题。为什么说大规模吸收的系统很有用呢?因为所有的推荐系统都与它相关,比如阿里巴巴做推荐,都会涉及到吸收的数据,所以这一块光有框架解决不了问题,所以我们希望通过整个站上来做发力。

产业自然语言处理其他智能领域大数据阿里云开发者搜索引擎阿里巴巴
1
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
周靖人人物

中国科学技术大学毕业,获哥伦比亚大学计算机博士学位,前微软研发合伙人。2016年07月06日,周靖人已证实加盟阿里巴巴集团,任职阿里云首席科学家,将带领阿里云中美两地的研发团队,总体负责阿里云大数据平台和人工智能研究机构iDST的科研工作。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

推荐文章
暂无评论
暂无评论~