蛋酱作者

「新基建」时代,浪潮为什么能在智慧计算领域做到全球领先?

不管是「看得见」的智慧服务,还是「看不见」的基础设施,我们都能够感受到,智算中心正在成为当今时代的动力源,未来的五到十年,人工智能会成为未来最核心的计算力。

4 月 9 日,一年一度的「浪潮云数据中心合作伙伴大会(IPF 2020)」如期举行。受到疫情的影响,这也是 IPF 大会首次通过线上直播的方式举办大会。

在过去的一段时间里,新一代信息技术在抗疫过程中发挥了巨大作用,技术对人们生活的影响也比过往的任何时候都要深刻。从疫情动态汇总、同乘同航确诊查询、到网课辅导、在线问诊、办公协同,无论线上线下,信息技术都展示出了对社会智慧进化的迅速推动作用。

浪潮集团执行总裁、首席科学家王恩东在大会最开始的演讲中提到:「在各种智慧服务和新型基础设施的背后,支撑智慧化转型的正是以云计算、大数据、人工智能为核心的智慧计算。」

智算中心是智慧时代最主要的计算力生产中心和供应中心,它以融合架构计算系统为平台,以数据为资源,能够以强大算力驱动 AI 模型来对数据进行深度加工,源源不断地产生各种智慧计算服务,并通过网络以云服务形式向组织及个人进行供应,正成为经济社会运行的重要基础设施。浪潮在智算中心建设上,则以「开放标准、集约高效、普适普惠」为标准。

王恩东提出:「智算中心是我们这个时代的动力源。发展智算中心,应该牢牢抓住两大发展方向——人工智能和开放计算。」一直以来,浪潮都将人工智能作为重点,全力发展领先的计算力。在大会上,王恩东也系统介绍了浪潮智算中心 AI 算力的作业环节:

首先,生产算力。浪潮拥有业内最强最全的 AI 计算产品阵列,为合作伙伴提供全线定制化的人工智能芯片和加速卡,覆盖了从训练到推理、从语音到语义、从云到 AI 加速等各类相关的 AI 应用场景。

浪潮 AGX-5 是目前全球最高性能的 AI 计算主机之一,能够实现单机计算性能每秒两千万亿次的强大算力输出;AGX-2 是目前单位空间内 GPU 计算密度最高的服务器,是全球首款在 2U 空间内高速互联集成 8 颗最高性能 GPU 加速器的服务器;FP5295 可支持 CPU-GPU NVLink 互联,实现共享共存。

浪潮旗下的人工智能服务器 NF5488M5 是目前适用于 transformer 性能最好的 AI 服务器,首次在 4U 空间内实现了 8 颗目前性能最强的 NVIDIA Tesla V100 Tensor Core 32GB GPUs 的高速互联,尤其适合于计算设备之间需要高速互联网的 NLP 训练场景。在 Transformer 模型训练过程中,以 GLUE 基准训练达到 80.4% 作为基准测试,NF5488M5 上所能实现的性能比其他同类的 AI 服务器性能分别提升了 67% 和 31%。

此外,浪潮超大规模 AI 计算框架 LMS,实现了单 GPU 超大算力支撑,支持 70 亿参数的 NLP 智能语言模型训练,相比主流 Bert 模型参数量提升 20 倍。

大会还发布了全球首款 AI 开放加速计算系统 MX1,基于 OCP 社区 OAM 开放标准设计,互联带宽 224Gbps,理论最高带宽 896Gbps。产品支持 12V 和 54V 供电输入,高带宽和双供电方案使得该产品可同时支持多种 AI 加速器,从而极大提升了用户的 AI 基础架构部署效率。同时 MX1 单节点设计可支持 8 颗 AI 加速器,最大可纵向扩展 32 颗 AI 加速器,实现对超大规模神经网络模型并行计算场景的支持。

第二,聚合算力。在训练方面,浪潮优化了 TensorFLow 框架,在全球首次实现在 512 个 GPU 卡上 90% 的扩展效率,打破了 Imagenet 训练集训练时间全球最快纪录。在推理方面,浪潮针对高并发推理集群进行架构优化,构建了高性能的 NVMe 存储池,深度优化了软件栈,性能提升了 3.5 倍以上。

针对当前云数据中心建设中广泛存在的 CPU 高消耗等问题,浪潮推出了面向云中心智能网络加速的产品方案 N20X,实现对主机网络、存储和计算负载的卸载到网卡,让主机的计算存储网络实现有效的加速,以此实现对云数据中心网络和算力资源的保障。

第三,调度算力。浪潮在去年 4 月发布的 AIStation 计算资源平台支持 AI 训练和推理,可以提供 AI 模型开发和部署一站式交付,是业界功能最全的 AI 管理平台,帮助合作伙伴完成一站式模型开发和部署。

目前,AIStation 推理平台发布,旨在帮助合作伙伴更好地完成模型的部署和推理,提供多模型计算结果,保证推理结果的准确性和可信度,提速整体 AI 生产交互过程。

最后,释放算力。在「产业 AI 化」的推进过程中,传统企业做 AI 转型往往会面临着缺乏专家和技术的困境,浪潮自动机器学习平台 AutoML Suite 则为各行各业提供了一个智能化工具。

AutoML Suite 共有三大技术引擎:AutoNAS、AutoTune、AutoPrune。AutoNAS 能够帮助从零来构建网络模型,快速实现 AI 模型和数据的匹配。AutoTune 自动实现一个超参调整功能,目的在于将人类专家从烦琐的手工调参工作当中释放出来。AutoPrune 能够对网络进行高效的压缩,压缩后的模型在精度保持不变的情况下,保持非常好的性能,使之达到生产部署的要求。在 RestNet50 上通过 AutoPrune 压缩后,压缩后模型的计算量从 4GFLOPS 降低到 1.52 GFLOPS,推理性能提升两倍以上。

AutoML 是当下非常热门的研究领域,而浪潮面向行业伙伴推出的 AutoML Suite 有效降低了 AI 应用门槛,同时还支持本地化和云端部署,已在智慧城市、智慧车站等多个领域正式应用。

浪潮 AI&HPC 产品线总经理刘军用四句话来归纳浪潮智算中心的总路线:「浪潮提供了最领先的算力机组来生产算力,通过更敏捷的数据中心来聚合算力,通过高效的调度算力为产业 AI 提供更多创新的可能,同时通过释放算力来快速落地进化 AI。浪潮将始终致力于创新 AI 计算,为新基建提供更多原动力。」

入门AI计算浪潮
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~