十年演进,腾讯大数据第四代数智融合计算平台「天工」终于问世,它有什么过人之处?
上世纪 80 年代,姚期智教授曾在一篇文章中提出了「百万富翁设想」:如果两个百万富翁在街头相遇,在出于隐私考虑不列举自己所有财产的前提下,他们如何比较出谁更富有?这是一个密码学领域的经典问题,即一组互不信任的参与方在保护隐私信息以及没有可信第三方的前提下如何进行协同计算。随着信息技术的快速发展和个性化服务的演进,用户个人信息的跨境、跨系统、跨生态圈交互日益频繁,随之产生的隐私信息保护短板效应、隐私侵犯追踪溯源难等问题也更加常见。今天,数据已经成为经济与社会领域变革的核心推动力之一,重新塑造着人们的生产和生活方式。每时每刻都有大量的数据资源在产生,但数据孤岛问题的广泛存在,也让数据价值发掘工作受到掣肘。同时,数据的大量使用引出了新的社会问题:数据的隐私安全该如何保证?在分析利用海量数据的同时,我们如何让科技向善?在这样的背景下,诸如联邦学习、同态加密、安全多方计算等隐私计算主流技术都成为了当下的研究热点,星星之火得以燃起。隐私计算作为数据融合应用过程中保障数据安全合规的关键技术路径,其商业模式、应用场景、技术变革、产业趋势、法律问题等备受政、产、学、研、用各界关注。 4 月 18 日,「腾讯大数据高峰论坛」在北京召开,如何在保障数据隐私安全的前提下探索数据要素价值,成为了此次论坛的热议话题。中国科学院院士梅宏在演讲中提到,平衡数据共享开放和数据安全隐私保护的关系,需要强调「应用先行、安全并重」的原则,在国家层面,需要加紧建立数据资源的确权、开放、流通,以及交易相关的制度,促进以安全为前提条件的数据流通和融合。而在行业和组织层面,应该在国家法律法规的框架下,各自建立相应的行业制度和规范,推动行业企业内外的数据协作,打破不同组织、不同系统之间的数字壁垒,为数据分析和人工智能应用奠定基础。在本次论坛上,腾讯重磅发布了自研的第四代数智融合计算平台「腾讯大数据 - 天工」。腾讯自研第四代数智融合计算平台「腾讯大数据 - 天工」。要想读懂第四代平台「腾讯大数据 - 天工」,就无法跳过腾讯大数据在上一个十年的演进与成长。十年前的腾讯,管理几百个节点都很困难;十年后,腾讯大数据日接入消息量超过 55 万亿,日实时计算量超过 65 万亿,平台整体算力超过 500 万核,日分析任务达到 1500 万,腾讯大数据平台的能力不断被刷新,腾讯云已经成为国内算力最强的云厂商,同时也是日实时计算量最大的公司。自 2009 年开始,腾讯深耕海量大数据处理领域,第一代大数据平台依托 Hadoop 生态,围绕离线计算模式化构建出能够稳定支撑小时 / 天级别的计算任务数据处理平台。2012 年前后,腾讯第二代大数据平台通过引入 Spark、Storm 等实时计算处理框架,让大数据平台处理性能迈入毫秒级别,跻身国内实时计算量规模第一宝座。伴随着人工智能第三次浪潮来袭,2015 年,腾讯第三代大数据平台朝着机器学习发展,其自研机器学习框架 Angel 成为国内第一个从 Linux 基金会毕业的顶级 AI 项目,推动国内大数据处理正式进入机器学习时代。
十年磨剑,一朝出鞘,腾讯大数据的第四代计算平台为什么配得上「天工」这个名字?以「数据协同、技术互通、平台大脑」技术理念为基础,在确保数据安全的前提下,腾讯对第四代计算平台「天工」寄予厚望,在数据安全、智能化、统一平台三大方向重点发力,希望借助它打造真正的万亿级数据分析无人「自动驾驶」系统,推动大数据和人工智能技术融合为一,引领全球大数据计算进入下一时代。在腾讯数据平台部总经理蒋杰看来,大数据产业是新型基础设施的重要组成部分,未来将迎来发展的新阶段。第四代数智融合计算平台将以安全的方式打通数据孤岛,桥接多方数据,以统一的数据处理引擎更高效地挖掘数据价值,以智能化的方式驱动整个数据处理闭环,为开发者、企业、以及政府的数字化、智能化升级打下坚实基础。拆解「腾讯大数据 - 天工」:用 AI 做大数据平台的自动驾驶系统从离线计算、实时计算再到机器学习,大数据智能化是第四代数智融合计算平台规划的必由之路。2020 年起,腾讯大数据团队开始更多地思考一些事情:如何将流式计算和批量计算融合,如何融合整个 AI 体系和大数据体系,如何保护隐私,使得数据足不出户的情况下,让数据流和应用流、交易流能够得到快速融合,支撑业务的快速发展,这也是腾讯大数据一直在努力的方向。数据处理、数据接入、数据治理,甚至数据的分析、建模、服务、应用到数据协同,本应是一个完美的闭环体系,但涉及到企业应用、政策等因素,数据孤岛问题却是相当普遍的。正所谓,理想很美好,现实却很「骨感」。为了实现人工智能和大数据技术的复用,腾讯正在构建平台大脑,它将基于平台本身的日志、事件、指标特征等数据,通过机器学习算法,实现对平台状态的智能分析,推动万亿级大数据分析逐步实现「自动驾驶」。这个过程可以形象地比喻为自动驾驶的几个级别:快速发现问题、主动发现问题、主动解决问题,三者分别对应自动驾驶体系中 L3、L4、L5。从快速发现大数据运行问题到主动发现问题,再到主动解决问题,平台大脑预计可让数据中心研发效率提升 60%,运营效率提升 50%,平台服务质量提升 80%。在模式运转成功后,腾讯最想做的事是开源、开放:「我们希望把腾讯利用海量数据的能力和经验释放给业界,让业界参与进来,不再走我们曾经走过的弯路和跳过的坑。」如何统一 AI 计算框架和大数据互通的过程呢?「腾讯大数据 - 天工」平台通过构建大数据、AI 基础算子,统一元数据用于执行优化,统一批、流、图计算形态来统一计算引擎,并及时编译,代码生成适配异构硬件。蒋杰介绍说:「我们原来所有的大数据体系都要在 Java 环境里面做发布,其实 Java 很多时候效率是低于其他语言的,现在我们实现了编译和软硬件结合的模式,通过原子库和统一的计算引擎、调度引擎来实现整个 AI 和大数据技术互通的过程。这是我们这一两年在逐步探索和演进的体系和过程。」发展隐私计算来解决数据协同问题,这也是「腾讯大数据 - 天工」最主要的一个方向。腾讯自研的 Angel PowerFL 联邦学习平台构建在 Angel 之上,提供多种隐私保护机制,包括同态加密、秘密分享、差分隐私、可信执行环境(如 SGX)等,拥有全栈的联邦机器学习和深度学习功能,支持多方联邦逻辑回归、XGBoost、PCA、用户自定义神经网络模型,支持多方联邦模型在线 serving 和模型管理,支持联合数据分析。Angel PowerFL 团队是国内较早开展联邦学习研究和应用的团队,在大数据、分布式计算、分布式机器学习、分布式消息中间件、隐私计算、密码学等领域都有丰富的研发和应用经验,已在国际顶级会议上发表联邦学习学术论文,提交了近 20 件联邦学习技术专利,并参与了多项隐私计算相关标准的制定,完成了多个商用隐私计算和联邦学习的产品落地。去年,腾讯 Angel PowerFL 安全联合计算平台还获得了 iDash 2020 世界隐私计算大赛冠军。在论坛中,腾讯数据平台部 AI 平台总监陶阳宇详细阐述了 Angel PowerFL 平台的三大特点:首先,Angel PowerFL 支持 3072bit 高强度的加密和 TEE 硬件双保险,远超金融领域 2048bit 的加密级别。其次,Angel PowerFL 支持千亿级规模的海量数据训练,性能参数领先业界 5 倍。此外,Angel PowerFL 还提供全栈功能,无论是机器学习还是大数据分析,均可提供全场景的安全保护,包括像模型特征预处理、模型训练、模型预测等。为方便产品迭代和应用部署,Angel PowerFL 平台采用了计算层和服务层分离的设计,支持多种方式部署,支持灵活资源扩缩容。此外,Angel PowerFL 还支持从多种数据源拉取数据,包括 Ceph,COS,HDFS 等。基于 K8S 的部署方案,还保证了联邦深度学习的应用,方便对接 TensorFlow 和 PyTorch 等常用深度学习框架,以及在 K8S 集群上进行分布式深度学习模型训练和推理。陶阳宇表示,Angel PowerFL 下一步演化的方向重点仍放在改进它的易用性。论坛同时还正式发布了《腾讯隐私计算白皮书(2021》,白皮书由腾讯大数据联合腾讯研究院等公司内部多部门共同撰写,涵盖隐私计算发展背景、技术体系、重点应用行业和场景、数据安全合规、未来发展前景等内容。对于学界、行业和腾讯来说,隐私计算都是一门处于发展初期的技术。在陶阳宇看来:「和任何其他技术一样,都会有一个发展的周期,我们可以让子弹再飞一会儿。」隐私计算之外,在着手规划腾讯大数据第四代数智融合计算平台的同时,团队也察觉到了大环境的变化。疫情之下,2020 年是云计算按下加速键的一年。物理世界的数字化、企业的数字化、人工智能即服务和新型体系架构,让云计算的边界持续扩展。在已经到来的云计算 2.0 时代,各平台客户的需求不再局限于单一的 IaaS。在多年技术积累和需求的强力推动下,腾讯云打通了 IaaS+PaaS+SaaS 全方位云服务体系,除了在 IaaS 层的广泛布局和技术领先,在以大数据、数据库、AI、音视频等为代表的 PaaS 能力上也实现了高速发展。以数据库为例,腾讯云自主研发的企业级分布式数据库产品 TDSQL,旗下涵盖金融级分布式、云原生、分析型等多引擎融合的完整数据库产品体系,提供业界领先的金融级高可用、计算存储分离、数据仓库、企业级安全等能力,同时具备智能运维平台、Serverless 版本等完善的产品服务体系。截至 2020 年,TDSQL 已对外服务数千家金融政企机构,同时广泛覆盖游戏、电商、移动互联网、云开发等泛互联网业务场景,帮助超过 4000 家行业客户进行数字化升级。在音视频领域,腾讯云覆盖了国内 90% 音视频客户,视频云解决方案市场份额位列行业第一。疫情期间,腾讯云在音视频领域的整体流量带宽实现翻倍增长,实时音视频日均互动时长突破 30 亿分钟,峰值通话和连麦并发数达到千万级。腾讯云音视频通信网络 RT-ONE 是同时整合了腾讯云实时通信网络、即时通信网络以及流媒体分发网络三张大网的融合网络平台。基于 RT-ONE™网络,腾讯云构建了业界最完整的音视频通信 PaaS 平台,赋能开发者在各个垂直场景快速开发行业应用。在 SaaS 领域,腾讯推出千帆计划,打造企业应用连接器,通过互联互通市场上越来越多的优质 SaaS 应用,包括腾讯会议、企业微信、有赞、微盟、法大大、销售易等企业,腾讯云能够为企业提供覆盖面更广、更优质的业务场景应用,帮助企业更好地实现数字化转型。接受考验,在压力中完成迭代,是一个技术团队的工作常态。在腾讯数据平台部总经理蒋杰看来,技术的演进从来不是一蹴而就的,十年磨一剑,对腾讯大数据来说或许只是一个开端。「如果是坚持在做正确的事情,不管这个技术现在处于萌芽期、成熟期,还是衰退期,我们都应该去坚定技术本身的商业价值所在,否则技术不会有更新。这也是我们一直坚持的最核心的价值观。」