Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱作者

「腾讯大数据-天工」问世,鹅厂想用AI给大数据平台做自动驾驶系统

十年演进,腾讯大数据第四代数智融合计算平台「天工」终于问世,它有什么过人之处?

上世纪 80 年代,姚期智教授曾在一篇文章中提出了「百万富翁设想」:如果两个百万富翁在街头相遇,在出于隐私考虑不列举自己所有财产的前提下,他们如何比较出谁更富有?

这是一个密码学领域的经典问题,即一组互不信任的参与方在保护隐私信息以及没有可信第三方的前提下如何进行协同计算。随着信息技术的快速发展和个性化服务的演进,用户个人信息的跨境、跨系统、跨生态圈交互日益频繁,随之产生的隐私信息保护短板效应、隐私侵犯追踪溯源难等问题也更加常见。

今天,数据已经成为经济与社会领域变革的核心推动力之一,重新塑造着人们的生产和生活方式。每时每刻都有大量的数据资源在产生,但数据孤岛问题的广泛存在,也让数据价值发掘工作受到掣肘。同时,数据的大量使用引出了新的社会问题:数据的隐私安全该如何保证?在分析利用海量数据的同时,我们如何让科技向善?

在这样的背景下,诸如联邦学习、同态加密、安全多方计算等隐私计算主流技术都成为了当下的研究热点,星星之火得以燃起。隐私计算作为数据融合应用过程中保障数据安全合规的关键技术路径,其商业模式、应用场景、技术变革、产业趋势、法律问题等备受政、产、学、研、用各界关注。 


4 月 18 日,腾讯大数据高峰论坛」在北京召开,如何在保障数据隐私安全的前提下探索数据要素价值,成为了此次论坛的热议话题。

中国科学院院士梅宏在演讲中提到,平衡数据共享开放和数据安全隐私保护的关系,需要强调「应用先行、安全并重」的原则,在国家层面,需要加紧建立数据资源的确权、开放、流通,以及交易相关的制度,促进以安全为前提条件的数据流通和融合。而在行业和组织层面,应该在国家法律法规的框架下,各自建立相应的行业制度和规范,推动行业企业内外的数据协作,打破不同组织、不同系统之间的数字壁垒,为数据分析人工智能应用奠定基础。

在本次论坛上,腾讯重磅发布了自研的第四代数智融合计算平台「腾讯大数据 - 天工」

腾讯自研第四代数智融合计算平台「腾讯大数据 - 天工」。

要想读懂第四代平台「腾讯大数据 - 天工」,就无法跳过腾讯大数据在上一个十年的演进与成长。

十年前的腾讯,管理几百个节点都很困难;十年后,腾讯大数据日接入消息量超过 55 万亿,日实时计算量超过 65 万亿,平台整体算力超过 500 万核,日分析任务达到 1500 万,腾讯大数据平台的能力不断被刷新,腾讯云已经成为国内算力最强的云厂商,同时也是日实时计算量最大的公司。

自 2009 年开始,腾讯深耕海量大数据处理领域,第一代大数据平台依托 Hadoop 生态,围绕离线计算模式化构建出能够稳定支撑小时 / 天级别的计算任务数据处理平台。2012 年前后,腾讯第二代大数据平台通过引入 Spark、Storm 等实时计算处理框架,让大数据平台处理性能迈入毫秒级别,跻身国内实时计算量规模第一宝座。伴随着人工智能第三次浪潮来袭,2015 年,腾讯第三代大数据平台朝着机器学习发展,其自研机器学习框架 Angel 成为国内第一个从 Linux 基金会毕业的顶级 AI 项目,推动国内大数据处理正式进入机器学习时代。



十年磨剑,一朝出鞘,腾讯大数据的第四代计算平台为什么配得上「天工」这个名字?

三张牌:安全、智能、统一。

以「数据协同、技术互通、平台大脑」技术理念为基础,在确保数据安全的前提下,腾讯对第四代计算平台「天工」寄予厚望,在数据安全、智能化、统一平台三大方向重点发力,希望借助它打造真正的万亿级数据分析无人「自动驾驶」系统,推动大数据和人工智能技术融合为一,引领全球大数据计算进入下一时代。


腾讯数据平台部总经理蒋杰看来,大数据产业是新型基础设施的重要组成部分,未来将迎来发展的新阶段。第四代数智融合计算平台将以安全的方式打通数据孤岛,桥接多方数据,以统一的数据处理引擎更高效地挖掘数据价值,以智能化的方式驱动整个数据处理闭环,为开发者、企业、以及政府的数字化、智能化升级打下坚实基础。

拆解「腾讯大数据 - 天工」:用 AI 做大数据平台的自动驾驶系统

从离线计算、实时计算再到机器学习,大数据智能化是第四代数智融合计算平台规划的必由之路。

2020 年起,腾讯大数据团队开始更多地思考一些事情:如何将流式计算和批量计算融合,如何融合整个 AI 体系和大数据体系,如何保护隐私,使得数据足不出户的情况下,让数据流和应用流、交易流能够得到快速融合,支撑业务的快速发展,这也是腾讯大数据一直在努力的方向。

数据处理、数据接入、数据治理,甚至数据的分析、建模、服务、应用到数据协同,本应是一个完美的闭环体系,但涉及到企业应用、政策等因素,数据孤岛问题却是相当普遍的。正所谓,理想很美好,现实却很「骨感」。

为了实现人工智能大数据技术的复用,腾讯正在构建平台大脑,它将基于平台本身的日志、事件、指标特征等数据,通过机器学习算法,实现对平台状态的智能分析,推动万亿级大数据分析逐步实现「自动驾驶」。

这个过程可以形象地比喻为自动驾驶的几个级别:快速发现问题、主动发现问题、主动解决问题,三者分别对应自动驾驶体系中 L3、L4、L5。


从快速发现大数据运行问题到主动发现问题,再到主动解决问题,平台大脑预计可让数据中心研发效率提升 60%,运营效率提升 50%,平台服务质量提升 80%。

在模式运转成功后,腾讯最想做的事是开源、开放:「我们希望把腾讯利用海量数据的能力和经验释放给业界,让业界参与进来,不再走我们曾经走过的弯路和跳过的坑。」

如何统一 AI 计算框架和大数据互通的过程呢?「腾讯大数据 - 天工」平台通过构建大数据、AI 基础算子,统一元数据用于执行优化,统一批、流、图计算形态来统一计算引擎,并及时编译,代码生成适配异构硬件。

蒋杰介绍说:「我们原来所有的大数据体系都要在 Java 环境里面做发布,其实 Java 很多时候效率是低于其他语言的,现在我们实现了编译和软硬件结合的模式,通过原子库和统一的计算引擎、调度引擎来实现整个 AI 和大数据技术互通的过程。这是我们这一两年在逐步探索和演进的体系和过程。」

让数据不相识,却相知

发展隐私计算来解决数据协同问题,这也是「腾讯大数据 - 天工」最主要的一个方向。

腾讯自研的 Angel PowerFL 联邦学习平台构建在 Angel 之上,提供多种隐私保护机制,包括同态加密、秘密分享、差分隐私、可信执行环境(如 SGX)等,拥有全栈的联邦机器学习深度学习功能,支持多方联邦逻辑回归、XGBoost、PCA、用户自定义神经网络模型,支持多方联邦模型在线 serving 和模型管理,支持联合数据分析

Angel PowerFL 团队是国内较早开展联邦学习研究和应用的团队,在大数据、分布式计算、分布式机器学习、分布式消息中间件、隐私计算、密码学等领域都有丰富的研发和应用经验,已在国际顶级会议上发表联邦学习学术论文,提交了近 20 件联邦学习技术专利,并参与了多项隐私计算相关标准的制定,完成了多个商用隐私计算和联邦学习的产品落地。去年,腾讯 Angel PowerFL 安全联合计算平台还获得了 iDash 2020 世界隐私计算大赛冠军。


在论坛中,腾讯数据平台部 AI 平台总监陶阳宇详细阐述了 Angel PowerFL 平台的三大特点:

首先,Angel PowerFL 支持 3072bit 高强度的加密和 TEE 硬件双保险,远超金融领域 2048bit 的加密级别。

其次,Angel PowerFL 支持千亿级规模的海量数据训练,性能参数领先业界 5 倍。

此外,Angel PowerFL 还提供全栈功能,无论是机器学习还是大数据分析,均可提供全场景的安全保护,包括像模型特征预处理、模型训练、模型预测等。

为方便产品迭代和应用部署,Angel PowerFL 平台采用了计算层和服务层分离的设计,支持多种方式部署,支持灵活资源扩缩容。此外,Angel PowerFL 还支持从多种数据源拉取数据,包括 Ceph,COS,HDFS 等。基于 K8S 的部署方案,还保证了联邦深度学习的应用,方便对接 TensorFlow 和 PyTorch 等常用深度学习框架,以及在 K8S 集群上进行分布式深度学习模型训练和推理。

陶阳宇表示,Angel PowerFL 下一步演化的方向重点仍放在改进它的易用性。

论坛同时还正式发布了腾讯隐私计算白皮书(2021》,白皮书由腾讯大数据联合腾讯研究院等公司内部多部门共同撰写,涵盖隐私计算发展背景、技术体系、重点应用行业和场景、数据安全合规、未来发展前景等内容。


对于学界、行业和腾讯来说,隐私计算都是一门处于发展初期的技术。在陶阳宇看来:「和任何其他技术一样,都会有一个发展的周期,我们可以让子弹再飞一会儿。」

2020,腾讯云的进击之年
 
隐私计算之外,在着手规划腾讯大数据第四代数智融合计算平台的同时,团队也察觉到了大环境的变化。

疫情之下,2020 年是云计算按下加速键的一年。物理世界的数字化、企业的数字化、人工智能即服务和新型体系架构,让云计算的边界持续扩展。

在已经到来的云计算 2.0 时代,各平台客户的需求不再局限于单一的 IaaS。在多年技术积累和需求的强力推动下,腾讯云打通了 IaaS+PaaS+SaaS 全方位云服务体系,除了在 IaaS 层的广泛布局和技术领先,在以大数据、数据库、AI、音视频等为代表的 PaaS 能力上也实现了高速发展。

数据库为例,腾讯云自主研发的企业级分布式数据库产品 TDSQL,旗下涵盖金融级分布式、云原生、分析型等多引擎融合的完整数据库产品体系,提供业界领先的金融级高可用、计算存储分离、数据仓库、企业级安全等能力,同时具备智能运维平台、Serverless 版本等完善的产品服务体系。

截至 2020 年,TDSQL 已对外服务数千家金融政企机构,同时广泛覆盖游戏、电商、移动互联网、云开发等泛互联网业务场景,帮助超过 4000 家行业客户进行数字化升级。

在音视频领域,腾讯云覆盖了国内 90% 音视频客户,视频云解决方案市场份额位列行业第一。疫情期间,腾讯云在音视频领域的整体流量带宽实现翻倍增长,实时音视频日均互动时长突破 30 亿分钟,峰值通话和连麦并发数达到千万级。

腾讯云音视频通信网络 RT-ONE 是同时整合了腾讯云实时通信网络、即时通信网络以及流媒体分发网络三张大网的融合网络平台。基于 RT-ONE™网络,腾讯云构建了业界最完整的音视频通信 PaaS 平台,赋能开发者在各个垂直场景快速开发行业应用。

在 SaaS 领域,腾讯推出千帆计划,打造企业应用连接器,通过互联互通市场上越来越多的优质 SaaS 应用,包括腾讯会议、企业微信、有赞、微盟法大大、销售易等企业,腾讯云能够为企业提供覆盖面更广、更优质的业务场景应用,帮助企业更好地实现数字化转型。

接受考验,在压力中完成迭代,是一个技术团队的工作常态。

腾讯数据平台部总经理蒋杰看来,技术的演进从来不是一蹴而就的,十年磨一剑,对腾讯大数据来说或许只是一个开端。

「如果是坚持在做正确的事情,不管这个技术现在处于萌芽期、成熟期,还是衰退期,我们都应该去坚定技术本身的商业价值所在,否则技术不会有更新。这也是我们一直坚持的最核心的价值观。」
产业大数据技术隐私计算腾讯云
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

数据仓库技术

XGBoost技术

XGBoost是一个开源软件库,为C ++,Java,Python,R,和Julia提供了渐变增强框架。 它适用于Linux,Windows,MacOS。从项目描述来看,它旨在提供一个“可扩展,便携式和分布式的梯度提升(GBM,GBRT,GBDT)库”。 除了在一台机器上运行,它还支持分布式处理框架Apache Hadoop,Apache Spark和Apache Flink。 由于它是许多机器学习大赛中获胜团队的首选算法,因此它已经赢得了很多人的关注。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

法大大机构

深圳法大大网络科技有限公司(www.fadada.com)是国内领先的第三方电子合同平台,主要为金融、房地产、汽车、人力资源服务、教育、保险、第三方支付、旅游、医疗、物流、供应链、B2B、B2C线上交易平台等行业以及政府机构提供电子合同、电子文件签署及存证服务,同时整合提供司法鉴定和律师服务等增值服务。

https://www.fadada.com
数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

微盟机构

微盟是中国领军的中小企业云端商业及营销解决方案提供商,同时也是中国领军的腾讯社交网络服务平台中小企业精准营销服务提供商。微盟围绕商业云、营销云、销售云打造智慧云端生态体系,通过去中心化的智慧商业解決方案赋能中小企业实现数字化转型。

https://www.weimob.com/
推荐文章
暂无评论
暂无评论~