Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

突破E级算力,最高支持超千卡规模集群:燧原科技发布云燧智算机

在9月3日的2022世界人工智能大会“算尽其用·定义AI算力中心新实践”云端算力产业应用论坛上,燧原科技正式发布了云燧智算机(CloudBlazer POD)。

数字经济时代,算力已成为新的关键生产力,是衡量一个国家数字经济发展水平的重要指标。人工智能产业的蓬勃发展,促进了数据量爆发式增长和数据形态日益多样化,对于算力多样化的需求也不断演进,尤其是智能算力需求迅速增长,数据中心正在朝着异构计算的方向前进。

作为国内已落地超千卡规模液冷AI集群的人工智能算力企业,燧原科技的第一代和第二代“邃思”芯片均已实际应用于大规模AI集群工程中,支撑融媒体生成、城市智能感知等多样化场景。在过往的落地实践中,燧原科技发现,人工智能数据中心因其软件运维复杂,普遍具有方案选型难、各厂商产品兼容未知等痛点,而且数据中心部署交付周期长、沟通成本高、项目管理周期长。

基于此,在9月3日的2022世界人工智能大会“算尽其用·定义AI算力中心新实践”云端算力产业应用论坛上,燧原科技正式发布了云燧智算机(CloudBlazer POD)。

image.png云燧智算机是针对大规模、集约化人工智能算力应用场景推出的高性能人工智能加速集群产品,通过一站式预集成人工智能加速硬件、一体化开发与管理平台及配套人工智能应用软件与服务,可广泛应用于数字政府、科研院所、科创平台等企事业单位。

具体而言,云燧智算机有几大优势:

  • 开箱即用,实现智算中心优异TCO

云燧智算机采用一体化设计,是专为人工智能场景下计算、存储、网络、软硬协同设计的标准化产品,提供高可用的整体安全设计,确保集群架构扩展性能符合预期,提供包括采购、安装、运维一体的交钥匙方案。对数据中心的环境和IT计算资源提供全面的监控和管理,提高集群部署、测试的质量和效率,辅助用户提升运营效益和降低运行成本,帮助用户提升运维价值,为用户实现AI算力中心从交付部署到后期上线及运维管理全生命周期中的优异总拥有成本(TCO)。

  • 全局优化,提供卓越AI性能保障

云燧智算机代表了燧原科技经过多个大规模工程实践所形成的计算、网络、存储的整体设计:以全局优化为目标,基于计算、存储、管理网络分离,全互联无阻塞的网络架构,结合高效的多级存储方式,在强大的“邃思”芯片与CPU的异构算力支撑下,云燧智算机能够提供卓越的AI性能。

image.png云燧智算机整体设计。

  • PUE=<1.1,满足新型数据中心要求

基于双碳目标以及绿色环保的总体趋势,无论是新型数据中心的规划建设,以及东数西算的政策性要求,都对数据中心整体能效(Power Usage Effectiveness,PUE)有明确的优化指标性要求。云燧智算机采用一体化冷板式液冷技术,实现单节点8颗高性能人工智能芯片液冷散热,通过液冷板等高效热传导部件将被冷却对象的热量传递到自然冷媒中,采用先进流量控制系统,大幅提高流量变化范围、降低能耗,拥有架构简约、系统可靠、智能监控等特性,PUE可降至1.1及以下。


搭载经业务实证的AI芯片,软硬协同算尽其用

燧原科技创始人兼COO张亚林表示:“云燧智算机是结合了云燧训练和推理产品在行业落地的实践经验,以全方位降低AI算力中心部署和应用成本为目标所推出的全新系统一体化产品,面向大规模、集约化、绿色低碳数据中心建设。我们始终专注于客户的价值和体验,致力于为客户提供完备且易用的人工智能系统软硬件产品,同时积极响应国家绿色低碳高质量发展的战略目标。”

据了解,云燧智算机在以下几方面实现了突破:

  • 突破E级算力,最高可支持超千卡规模集群

依托于“邃思”芯片核心能力,在典型配置下,云燧智算机每单元可达到8PFLOPS的TF32浮点算力,并且支持按需横向扩容,可支持数千卡规模集群,突破E级算力,打造业界领先的超级算力集群。

  • 软件协同,充分释放集群的生产力价值

目前算力构成复杂,多CPU架构,多异构计算单元,并且考虑到集群本身一般服务于多用户、多场景的特性,如何能够对上层用户屏蔽底层算力异构性、赋能用户高效开发与部署上线AI应用,真正释放集群作为生产力工具的价值——软件是关键要素。

燧池智算平台(CloudBlazer Station)是全栈式人工智能开发服务平台和通用的大规模算力管理平台,结合强大的云燧AI算力集群和先进的大规模算力资源调度,为用户提供人工智能模型生产及应用发布的全流程服务能够一站式满足复杂的人工智能业务场景对人工智能服务的需求。image.png燧池智算平台(CloudBlazer Station)

  • 可支持超千亿参数巨量模型的高效、并行训练

大规模数据训练超大参数量的巨量模型是人工智能的发展方向,“预训练大模型+下游任务微调”的模型开发方式将极大提升企业的AI应用开发效率,开发者只需要少量行业数据就可以快速开发出精度更高、泛化能力更强的AI模型。

而训练出一个大模型,除了算法和数据,还需要超大规模的算力支撑。基于云燧智算机所构成的大规模集群解决方案采用高带宽、全互联拓扑架构,计算、存储、管理网络全分离,计算节点内基于GCU-LARE2.0多芯互联技术提供近1TB/s的互联带宽,跨节点互联能力高达600Gb/s,可实现千卡级大规模集群高速互联,具备优异的线性加速比以支撑超千亿参数巨量模型的高效、并行训练。


《“东数西算”战略下绿色智算中心产业发展研究报告》重磅发布

在数字经济浪潮席卷全球的趋势下,“算力”作为转换数据价值的“生产要素”,成为数字经济时代的新主角。特别是近十年来,人工智能技术取得较大突破,人工智能场景融合能力不断提升,已在金融、医疗、安防、教育、零售等多个领域实现技术落地。

在此背景下,以人工智能计算中心为代表的算力基础设施建设如火如荼,面对未来算力需求的飞速增长,我国算力发展格局日趋明朗,“东数西算”工程应势而生。智算中心承载以模型训练为代表的非实时性算力需求尤为适合实施“东数西算”。以智算中心为算力底座,在我国东西部地区开展人工智能领域的算力协同合作,将是我国推动“东数西算”工程落地的重要场景之一。

在论坛上,还有一项重要环节——国家信息中心与燧原科技深度合作,联合庆阳市人民政府、之江实验室、中国能建共同编制而成的《“东数西算”战略下绿色智算中心产业发展研究报告》重磅发布。

作为“东数西算”战略与人工智能领域的首次碰撞,这份产业发展研究报告的定位是智算中心践行“双碳”目标和国家总体算力布局的行动手册”。

image.png燧原科技首席公共事务官蒋燕在“算尽其用”主题论坛上介绍《“东数西算”战略下绿色智算中心产业发展研究报告》基本情况。

燧原科技作为本次报告的参编单位及发起单位之一,与“国家级智库”国家信息中心及相关参编单位深度合作。基于燧原科技在人工智能算力及智算中心建设的研究与实践,围绕智算中心政策、产业、技术趋势,分析论述了当前人工智能芯片自主可控面临的种种挑战。为推动智算中心绿色低碳、安全可控发展等提供了严谨务实、技术先进、全面细致的研究支撑。

image.png

《报告》提出了智算中心全链条发展之路:一是在上游,充分发挥“源网荷储”一体化作用,推动智算中心绿色集约发展;二是在中游,加快推进AI芯片国产化及规模化落地,推动智算中心自主可控发展;三是在下游,推动“东数西存”转向“东数西训”模式,推动智算中心降本增效发展。


十家企业成立“数据中心XPU异构生态联盟”

为了解决数据中心和智算产业快速发展带来日益增长的多样化算力的需求,国内领先的算力提供商燧原科技汇聚数据中心、集成电路、人工智能等生态合作创新企业,涵盖了云端和客户端CPU、图形计算、AI计算、数据处理器(DPU)、高性能自动驾驶、网络交换芯片和基础设施提供方,包括高速互联IP,高性能计算库和大数据计算平台,一共十家硬核科技企业,组建了“数据中心XPU异构生态联盟”。

论坛上,燧原科技、云豹智能、此芯科技、超摩科技、砺算科技、芯砺智能、篆芯半导体、奎芯科技、澎峰科技和贝式计算表示,共同打造智算中心异构融合算力底座,响应国家绿色集约双碳目标。

image.png

联盟将利用成员多样化的算力能力,通过资源整合,优势互补,采用统一的编程方式,构建完整XPU生态链,打造领先的智算中心集群,成为东数西算的算力引擎,助力新基建,为中国数字经济转型发展提供新动能。

产业智算中心AI算力燧原科技
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

推荐文章
暂无评论
暂无评论~