从关系型数据库到分布式机器学习,揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技术还会往引擎容器化、大数据机器学习、数据湖等方面不断延伸。

近日,腾讯大数据技术沙龙首站——Angel专场在深圳举办,腾讯大数据团队详细披露了腾讯大数据十年发展历程,并全面展示了腾讯第三代全栈机器学习平台Angel在大模型数据训练、深度学习、图计算等方面的技术能力,也深入分享了在微信支付、效果广告、微众银行等场景上的应用案例。

图片包含 监视器, 电话, 手机, 屏幕

描述已自动生成

会上,腾讯大数据负责人刘煜宏正式发布了“星火计划”,他表示:“在腾讯大数据十年的发展历程中, 我们不断追求技术创新, 集群数从30台到突破35000台。2016年,我们打破了计算奥运会之称的Sort Benchmark 4项世界纪录,性能全球领先。腾讯大数据的发展从开源中受益,秉承着开放共享的精神, 今天我们也推出技术共享的‘星火计划’,希望能够助力和反哺大数据生态繁荣。”

图片包含 室内, 墙壁, 人员, 男士

描述已自动生成

腾讯大数据发展“三部曲”

作为大数据领域的前沿探索者,腾讯大数据从2009年开始, 经历离线计算、实时计算与机器学习三个阶段,在实践中积累了大量的经验。

图片包含 屏幕截图

描述已自动生成据刘煜宏介绍,2009年之前,腾讯主要使用传统的关系型数据库。2009年开始,传统的单机数据库所提供的服务,在系统可扩展性、性价比方面已不再适用腾讯业务爆发式的增长。面对这种变化,腾讯大数据转向分布式,基于开源的Hadoop体系,构建了腾讯第一代大数据平台,并建设离线计算平台,主要发力规模化。腾讯大数据由此进入第一阶段。三年里,腾讯实现了从关系型数据库到自建大数据平台的全面迁移,到2012年,腾讯大数据的单集群规模突破了4400台。

2012年,移动互联网爆发,应对业务数据统计及时性、快速性的需求,腾讯大数据从Hadoop转向Spark和Storm体系,在吸收开源技术的基础上,结合腾讯自身的需求进行重写,探索流式计算、秒级采集系统的建设,构建企业级的实时数据分析体系,腾讯大数据发展进入第二阶段。

2015年至今,腾讯大数据迈入了第三阶段。随着数据挖掘、数据应用的深入,腾讯大数据再次自我迭代,于2016年推出了自研机器学习平台Angel,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等AI应用场景。它由腾讯与北京大学联合研发,兼顾了工业界的高可用性和学术界的创新性。不仅支撑腾讯自身业务需求,在行业上也具有里程碑意义。

从海量业务中来,专注图计算场景

作为面向机器学习的第三代高性能计算平台,腾讯Angel在稀疏数据高维模型的训练上具有独特优势,擅长推荐模型和图网络模型相关领域。当前业界主流的大规模图计算系统主要有Facebook的Big Graph、Power graph、Data bricks的 Spark GraphX等,但这些系统并不都支持图挖掘、图表示学习、图神经网络的三大类型算法。

图片包含 屏幕截图

描述已自动生成

腾讯Angel开发负责人肖品介绍,腾讯Angel从腾讯海量业务场景中而来,是超大样本和超高维度的机器学习平台。从性能上来看,Angel优于现有图计算系统,能够支持十亿级节点、千亿级边的传统图挖掘算法,百亿边的图神经网络算法需求。它可运行于多任务集群以及公有云环境,具备高效容错恢复机制,也更容易支持新算法,同时,Angel能够较好支持图挖掘、图表示、图神经网络算法,具备图学习的能力。

如今,Angel已在QQ、微信支付、腾讯广告、腾讯视频等腾讯旗下产品中广泛应用,并向微众银行等行业合作伙伴全面开放,普遍适用于智能推荐、金融风险评估等图计算业务场景。

到开源中去,积极贡献社区

发布仅一年时间,2017年,腾讯Angel就正式开源。2018年8月,腾讯将Angel捐赠给Linux旗下专注人工智能的LF AI基金会,结合基金会成熟的运营,全面升级的 Angel与国际开源社区深入互动,致力于让机器学习技术更易于上手研究及应用。

图片包含 屏幕截图

描述已自动生成

“Angel在2018年加入LF AI基金会进行孵化后,一直按照开源社区的模式进行运营,增长速度非常快,增加了特征工程、自动机器学习等很多新的功能,在Github上增加了超过2000个Star。” Linux Foundation APAC大中华区总监杨轩表示: “Angel是LF AI基金会下最活跃的项目之一,相信不久的将来,Angel将进入LF AI的顶级项目之列。”

图片包含 文字, 屏幕截图

描述已自动生成

目前,Angel在GitHub上Star数已超过5300,Fork数超过1300,总共有39位代码贡献者,提交了超过2336个commit。

面向未来,大数据、AI和云的深度融合

腾讯Angel在深度学习和图计算能力的演变,也与大数据的行业发展方向相契合。据刘煜宏介绍,未来,腾讯大数据将持续发力数据湖、批流统一(批量计算、流线计算的融合)、AI+大数据、云计算+大数据四个主要方向。

图片包含 屏幕截图

描述已自动生成

刘煜宏表示:“AI、云计算与大数据密不可分,Angel从大数据平台到全栈机器学习平台的成长,也验证了这一行业方向。未来我们将把腾讯大数据的能力和技术,与AI、与云做深度融合,进一步落地大数据的价值,更好的助力合作伙伴和用户。”

据了解,腾讯大数据星火计划是由腾讯发起、面向大数据爱好者的技术共享体系,基于腾讯大数据10年研发与运营经验,以社区开源、网络课程、线下沙龙、技术峰会等多种形式,充分开放腾讯十多年来在大数据领域的技术积累。本次Angel专场是星火计划的首次线下活动。

产业机器学习数据挖掘腾讯大数据深度学习数据库
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

推荐文章
暂无评论
暂无评论~