尽管新冠病毒仍在世界范围内大肆传播,吸引着人们大部分的注意力,但根据政府间气候变化专门委员会(IPCC)的最新报告,逆转气候灾难的窗口期正快速关闭,减碳行动依然刻不容缓。
2022 年 4 月 22 日是第 53 个世界地球日,每一年世界地球日都会制定一个相应的行动主题。2022 年的主题是「投资我们的星球(Invest in Our Planet)」,藉由绿色经济、落实永续商业模式,来建立健康的城市、国家及经济。国际科技巨头在这一领域的投资由来已久,如今已加码投入。亚马逊在 2020 年收购了超过 4 吉瓦的共计 35 个风电与光伏电站,成为可再生能源迄今最大买家。谷歌提出将在 2030 年实现全球实时零碳运营,将零碳的统计范围从年过渡到小时。微软则提出将于 2030 年实现负碳排放,并且在 2050 年消除企业所有历史碳排放。中国互联网科技企业近几年也纷纷行动。在 2021 年,包括阿里、蚂蚁、腾讯等多家企业都提出了自己的碳中和目标,基本上都把 2030 年作为实现碳中和的关键时间点。就在今年地球日,蚂蚁和阿里先后宣布加入「低碳专利承诺」(Low Carbon Patent Pledge),一家倡导低碳技术专利共享的国际平台,向全球免费开放自己的部分节能减排专利。事实上,国内不少拥有大规模数据中心的公司在减排方面已经有不少尝试,主要的手段是硬件改造,即通过更先进的散热技术来降低数据中心能耗,譬如各种水冷、液冷方案,统称为降低 PUE,这种做法在全球范围内已经探索多年,谷歌的 PUE 如今非常接近于 1,节省了大量成本;但硬件改造耗时长,运维成本高,且收益相对有限,因为数据中心的电力消耗主要在服务器上,只要服务器利用率低,就意味着浪费。这一部分的浪费远超 PUE,根据 Gartner 调研,全球数据中心服务器 CPU 利用率只有 6%~12%。如今国内企业站在后发者的位置发展绿色计算,正是着眼未来,布局更有持续性前景技术的好时机。本文以蚂蚁为例,解读如何在保证较低的 PUE 之外,聚焦于能够提高已有算力使用率的技术,走一条更高稳定、前景更广阔的「绿色计算」道路。这套绿色计算技术项目成果也获得了信通院 2021 年度的云原生技术创新解决方案奖。大数据时代,数据正在成为国民经济发展的新动力。据 IDC 测算,预计到 2025 年,中国产生的数据总量将达 48.6ZB(泽字节,代表的是 10 万亿亿字节),占全球 27.8%,对 GDP 增长的贡献率将达年均 1.5% 至 1.8%。然而,要让数据潜力得到真正的释放,则需要强大的算力体系支撑。数据中心作为海量数据加工和处理的特定设备网络,其正常运行过程中需要消耗大量电力资源。中国信息通信研究院数据显示,2020年全国数据中心耗电量约760亿千瓦时,占全社会总耗电量(75110亿千瓦时)的1%。折算为二氧化碳排放量,2020年全国数据中心二氧化碳排放量近4000万吨。在节能减碳上,国内互联网科技企业建设绿色数据中心的路径大致相似,主要是通过对散热、冷却系统和服务器性能优化,降低电能利用效率(PUE)。PUE 是绿色数据中心的重要评价指标之一,理论极限为 1,数值越接近 1 表明能效水平越好。「我们注意到,单纯通过降低 PUE 进行节能减排,当前已经遇到了一些挑战。PUE 技术早已经是低垂的果子,被摘得差不多了,决定绿色数据中心的关键技术十年前是 PUE,3~5 年前已经不再是了。」蚂蚁集团高级技术专家武鹏向机器之心解释道:「十年前,整个行业的水平是在 1.8-1.5;十年后的今天,这个数值已经降到了 1.3 左右,部分优秀的公司可以降到 1.1 以下。但是,从 1.1 继续下降到 1 的过程中,就会出现一些非线性的额外的投入,以及一些技术方面的其他风险。」这也意味着,对于科技企业来说,仅仅依靠节能技术将不足以应对零碳挑战。「过去十年,整个行业持续向着大型化、智能化、高能效技术迭代。蚂蚁早在几年前就着手从自身的技术优势入手,瞄准在低碳的前提下进一步提升能源利用效率以及单位能源的业务效率,这一系列技术的结合就是蚂蚁的绿色计算技术体系。」据了解,在绿色计算技术能力的支持下,2021 年蚂蚁集团的全机房日平均利用率已经达到 2019 年的 2 倍,混部集群的利用率超过 40%,追上 Facebook(现 Meta)等国际领先公司的水平。蚂蚁开始研发「绿色计算」技术的时间点是在 2019 年,早于碳中和目标的提出,可以理解是科技公司发展到一定规模后的内部需求所驱动。目前这套技术已经可以解决大规模集群资源合理分配、分钟级有效调度、智能流量预测等行业关键难题,相关能力来自可信原生、技术风险、原生分布式数据库 OceanBase、智能引擎等多个技术团队。「可信原生是一种大规模的基础设施技术,是绿色计算的底层技术。」蚂蚁集团高级技术专家杨统凯向机器之心介绍。可信原生是蚂蚁集团源于对下一代金融基础设施的诉求而提出的理念,开发者可用以构筑更加稳定安全,高效易用的大规模技术基础设施,来满足泛金融行业严格的业务需求。具体到绿色计算方面,可信原生的三大核心技术,是「在离线混合部署技术」、「云原生分时调度技术」以及「AI 弹性容量技术」。「在离线混合部署技术」,即对计算资源进行离线混合部署。传统的市场做法是把在线任务和离线任务分开部署在不同的集群以避免可能的冲突,但是两个集群互相隔离将使得大量集群算力处于闲置状态,整个集群的运算效率低下。「混合部署的难点在于技术本身,如何保证在线业务和离线业务能够互不干扰,平稳安全地运行在一个物理机上,这是业界公认的一个难点。」杨统凯表示。蚂蚁集团的解题路径是在业界首次使用 Kata 安全容器的强隔离技术,将离线任务混合部署于在线服务所在的服务器之上。在强隔离技术保障下,即使单机 CPU 利用率达到 80% 以上,蚂蚁的在线服务也不会受到离线任务混部的影响,能在其服务指标要求内稳定运行。「云原生分时调度技术」,即根据具体场景负载特征,通过调度编排错峰复用计算资源。蚂蚁集团具备超过百万算力的在线业务,这些在线业务具备不同的业务场景,因此对资源的使用时间跨度上存在差异,如时间维度上的周期性。分时调度就是利用业务使用资源的时间特性,将一份资源在不同的时间段提供给不同的应用使用,可以极大提高资源效率。「通过这个技术蚂蚁可以很好的把不同峰值的在线业务编排在一起。我们现在可以实现更精细化的、小时级别的资源编排,相当于一台机器可以做成 24 份资源,有效提升整台物理机的使用效率,减少资源投入。」杨统凯介绍。「AI 弹性容量技术」,即结合人工智能来动态预测应用的容量。蚂蚁的业务特性有非常高的稳定性要求,像双 11 等活动场景,以往为了应对流量高峰,主要依靠人工判断,不停增加服务器进行保障。但是人工判断存在难度大与滞后性等问题,对此蚂蚁研发了 AI 智能容量技术,利用大数据和人工智能技术,建设了图计算的流量周期算法,通过深度学习来预测流量,从而实现智能的扩容和缩容。目前蚂蚁的可信原生技术主要通过开源的方式对外开放,同时通过其他产品开发,比如使用SOFA技术的相关商业化产品,取得了一定的商业化实践检验。
以上技术只是可信原生在绿色计算中的应用。作为一整套基础设施技术,它包括了云原生、安全容器、机密计算、可信硬件、小程序运行时等。从长期主义的角度来说,减碳技术和基础设施是非常契合的,这也是为什么提高资源利用率是蚂蚁可信原生技术的关键目标之一。过去几年,云原生在大规模集群系统架构领域独领风骚。从系统架构角度看,云原生是一个面向运维(SRE)的架构,其核心使命是保障系统的稳定性,当安全和稳定性与效能产生冲突时,面向运维的架构会让安全性更容易被折衷,而作为平台用户的应用开发,在大部分情况下也不想插手安全可信的工作。但最近一两年,技术趋势发生了一定变化。随着各国在隐私与数据安全保护方面的制度逐步健全,不仅基础设施架构需要加强安全可信,更需要对应用进行保护,通过多个不同的系统层面进行安全切面的检测、防护和阻断,甚至要有更强的规约,拒绝不符合安全规则的应用进入软件供应链。正是基于这样的趋势判断和技术理念,蚂蚁投入到可信原生这种大规模基础设施技术的研发中,并进行了广泛实践,比如组建安全计算团队来探索机密计算技术,加强系统对侵入的防护能力,同时让系统不能窥探上层的应用在做什么,这种有效的强保护对敏感的金融应用来说是提升资源利用率的必需品。在蚂蚁的绿色计算技术体系里,除了可信原生,同样值得关注的还有 OceanBase。这两年国产自研数据库火热,OceanBase 也是其中的知名例子,连续两年刷新了事务处理任务(TPC-C)基准测试世界纪录。从技术原理角度看,OceanBase 主要从以下三方面做到减碳排放:一是基于 LSM-Tree 的高级压缩技术,可以大幅降低存储成本,例如支付宝某业务从 Oracle 迁移到 OceanBase,数据由 100TB 压缩到 33TB;二是多次提速的分布式事务处理机制,OceanBase 将 Paxos 分布式一致性协议引入两阶段提交(2PC)技术中,使分布式事务具有自动容错能力;三是 SQL 执行引擎优化技术,通过执行计划缓存(Plan Cache)、快速 SQL 参数化、算子下压和过滤、向量化引擎等技术大大降低 SQL 执行时间。领先的数据库技术天然是减碳的得力支持,各家国内厂商在这方面的投入,相信陆续都会见到回报。绿色低碳的未来是人类共同的追求,也是当下全球共同的难题,需要的不只是几家公司的领先,而是整个行业、社会的协作。前些年,主要是国外的企业开放自己的技术,国内的同行学习,比如 Facebook在 2011 年创建的开放计算项目,微软、谷歌都参与在内,开源了自己的数据中心解决方案,帮助降低成本。而这两年,随着自研技术的发展,国内领先的公司也在对外开放自己的成果和实践,以回馈行业。就蚂蚁的例子来说,一方面是把已经做得扎实的基础技术,比如涉及到操作系统、数据库、云原生底层组件的部分,用开源的方式开放;另一方面对一些不属于工程软件的部分,比如智能算法,则通过学术论文,去和同行共享方法论。这也是谷歌等领先公司的做法。蚂蚁集团资深技术专家、Kata 联合发起人王旭在采访中表示:“蚂蚁在绿色计算上的研发和探索一直保持开放,希望我们的一些探索性工作能帮助到整个行业。现在我们有一些领先性的技术,比如 Kata Containers 是开放基础设施基金会的顶级项目,也是这个领域的开源事实标准,我们一直在不断把我们的实践回馈给开源社区;另外包括蚂蚁的 Kubernetes 集群,是全球规模最大的生产集群之一,这方面的实践也在反馈给社区;在可信领域,我们给机密计算联盟捐赠了 Occlum LibOS,这是他们接收的第一个来自中国的项目;此外还有金融级分布式中间件 SOFAStack,包含了构建金融级云原生架构所需的各个组件。截止目前,蚂蚁在云原生、数据库、前端等核心领域开源了近 800 个仓库,成长出近 20 个世界顶级开源社区项目。这些是我们作为技术人为行业能做出的一点贡献,未来我们还会更加开放。”历次技术革命都是一种创造性的回应,带动人类社会的发展。自 2020 年我国提出碳中和目标后,「双碳」连续两年被写入政府工作报告。2021 年,工信部印发《新型数据中心发展三年行动计划》,明确提出要大力推动技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局。面向社会数字化转型时代,「绿色计算」的内涵越来越丰富,从硬件逐渐扩展到软硬结合,技术也在推陈出新,寻找更面向未来的方向。对于科技企业而言,如何更主动地通过技术解决节能减碳问题,以回应人民对于美好生活的期待,这是挑战,更是机遇。