POWER 9带来的 高维度打击:浪潮揭秘「全球最强 AI 服务器」

很多人都对 IBM 全新的 POWER 9 CPU、英伟达 Volta GPU 以及 NVLink 高速互联技术有所了解。今年 10 月,在浪潮商用机器推出的全新OpenPOWER服务器中,这些技术已走出实验室,将为各家科技公司带来人工智能计算的强大动力。

号称「为 AI 运算设计」的 POWER 9 会对服务器市场带来多大的冲击?近日,机器之心来到了浪潮商用机器公司,与浪潮的工程师们聊了聊,深入了解了全新芯片架构,以及新服务器的强大性能。

浪潮表示,这款被称为「全球最强 AI 服务器」的新产品,其强大之处在于:

  • 采用了「最卓越 CPU+最强悍 GPU」POWER 9 与 Tesla V100 的组合
  • 首发支持 PCIe 4.0 传输技术
  • 最简洁,最有特色的 AI/HPC 专用架构
  • 带来 PowerAI 深度学习框架,已为企业应用部署做好准备

架构带来的高维度优势

与市面上大部分 x86 计算机不同,POWER 9 架构采用了特有的硬件架构。2013 年,IBM 发起了 OpenPOWER 计划,致力于推动高度可扩展性和计算加速性能。去年 12 月,IBM 推出了新一代 POWER 9 处理器,其强大的性能引起了业内的广泛关注。目前,谷歌、阿里巴巴、腾讯和大华等科技公司都成为了 POWER 9 服务器的合作伙伴,正在测试和应用搭载 POWER 9 的系统。

POWER 9带来的 高维度打击:浪潮揭秘「全球最强 AI 服务器」IBM 的 POWER 与 Intel Xeon、AMD EPYC 是目前服务器市场上的三种主要处理器类型。

「OpenPOWER 一方面包含处理器,它开放了授权,允许合作伙伴共同开发处理器性能。」OpenPOWER 服务器产品经理张峰介绍道,「POWER 架构面向很多新兴应用负载进行了大量转型。同时,它也采用了最先进的技术,率先提供了原生 PCIe4.0 的支持。」

作为新服务器带来的重要优势,PCIe 4.0 相对于上一个版本(PCIe 3.0),延迟可降低 30%,带宽则多了一倍。而对于目前被大量使用的 x86 架构来说,我们可能要等到 2020 年才能看到对于 PCIe 4 的支持。

在 CPU 方面,POWER 9 目前提供三种型号的处理器:其中 Sforza 对标 x86 平台的英特尔 Skylake 处理器,面向云计算大数据中心;Lagrange 则面向企业级商业计算;最后是 Monza,面向高性能计算、人工智能计算,其中也包含了对于 NVlink2.0 的支持。

浪潮商用机器即将在 10 月推出的 AI 服务器 FP5295G2 采用了 Monza 处理器,并包含了 4 块 由 NVlink 2.0 连接的 英伟达 Tesla V100 计算卡。它被认为是「企业级 AI 计算的最佳平台」,浪潮称,其采用了最卓越 CPU 和最强悍的 GPU 的组合。

技术人员表示,在全新服务器的 POWER 9 架构中,系统提供了 4 条 xBus 互联CPU,可实现64GB/s 的传输速度、两倍于x86平台的线程数量和 NVLink 2.0 原生连接。FP5295G2 也是首个开放内存地址空间的产品:这意味着 CPU 和 GPU 的内存空间可以相互访问,可以让开发阶段的编程更加迅捷。

体系结构是FP5295G2 超越 x86 服务器的最大优势。在浪潮的实验室中,开发人员用新服务器和英伟达 DGX-1 做了对比,由于拓扑结构更加简洁,浪潮 FP5295 的 POWER 架构相对于 x86 架构仅在 NVLink 速度上就有 4 倍的带宽提升。

浪潮认为,FP5295G2 相对于目前市场上的 x86 服务器,具有体系结构维度上的优势。

对于 POWER 9 架构而言,Summit 就是目前最大的应用案例,它应用了 4600多 个服务器节点(其形式和FP5295G2 相同),可实现每秒 20 亿亿的计算。

深度学习框架

在强大的计算性能之上,POWER 架构对于企业级 AI 应用的开发和部署提供了完整的支持,其集成深度学习框架被称为 PowerAI。

针对所有 POWER 架构服务器,浪潮和 IBM 都会提供免费的 PowerAI Base 工具包,其中包括对于 TensorFlow、Caffe、PyTorch、Chariner 等最流行的深度学习框架支持。其中,DDL 部分免费,而 Large Model Support(LMS)则完全免费。浪潮称,今年晚些时候,这些工具都将完全开源,以供更多用户使用。

POWER 9带来的 高维度打击:浪潮揭秘「全球最强 AI 服务器」

针对企业客户资源分配、监管等需求,浪潮还提供了 PowerAI Enterprise,这是一种面向企业级用户的完整解决方案。其可对任务运行状态进行可视化监控,并有效进行调度。其中的深度学习工具包可支持用户对深度学习业务的全流程上进行部署:从数据准备到训练,最后到推断和模型上线。

此外还有 PowerAI Vision,这是一种面向计算机视觉的解决方案。支持快速标签、模型训练到部署这一计算机视觉完整流程。

在 POWER 9 架构上,Large Model Support 被认为是能够有效提高模型部署效率的功能。它能够让显卡有效利用显存之外的计算机内存,以适应超大深度学习模型,节省训练时间。结合 GPU 上的 NVLink,POWER 服务器在模型训练时相比 x86 架构可节省一半时间以上。在已有案例中,这种架构已经显著提升了医疗影像、3D 建模等任务中的处理速度。

浪潮的新服务器在并行化方面也占优势。在高带宽架构的帮助下,新服务器的并行加速比可达 95%,这意味着多个节点并联时,其计算效率几乎保持线性提升,这一数字超过了 facebook 此前达成的 89.6%,成为了世界上最快的并行架构。

POWER 9带来的 高维度打击:浪潮揭秘「全球最强 AI 服务器」

对比基于至强 E5-2640 的服务器,浪潮服务器在 Chainer 模型上的运行速度快 3.7 倍,Caffe 模型上速度快 3.8 倍(利用了 Large Model Support),TensorFlow 模型的运行速度则提升了 2.3 倍。

「针对目前业内出现的一机 8 GPU 的 x86 服务器,我们也进行了性能对比,发现 4GPU 的 POWER 服务器比 8GPU 的 x86 服务器还要快。这体现了 POWER 架构在并行化方面的巨大优势。」浪潮商用机器技术工程师孙建介绍道。

POWER 架构的未来

尽管 IBM 在高性能计算领域有着很多成就,但目前其主推的 POWER 架构仍不是服务器市场上的主流。近几年来由深度学习引发的 AI 潮流或许能为这一架构带来新的机会。

「五年前随着云计算大数据人工智能的崛起,人们发现计算不再是为数据库进行单一服务的工具了。除了传统应用场景以外,人们还需要更多的计算资源,和更多的专有优化。」张峰表示。

面向大数据,人们需要更大的存储和数据吞吐量,应用场景的迁移变革了体系结构及支撑平台。POWER 架构也针对这些需求做出了自己的转型,POWER 9 就是 IBM 努力的最新结果。

浪潮商用机器正面向 AI 科技公司提供个性化的产品。9 月 10 日,这家公司与第四范式联合发布了 AI 软硬件一体机产品「Prophet AIO」,这是首个针对超大规模数据挖掘机器学习计算问题所推出的 AI 一体机产品。第四范式称,在同等成本的情况下,基于 POWER 架构的 Prophet AIO 整体性能较普通服务器可提升 10 倍以上。

浪潮商用机器由浪潮和 IBM 于今年 5 月联合成立,目前已有近 200 人的研发团队规模。据悉,浪潮商用机器正在参与下一代 POWER 10 架构的设计(预计会于 2020 年推出),并在 2019 年推出采用 POWER 9+ CPU 的服务器。在未来,浪潮商用机器的设计将为全球提供服务。

相信在未来的服务器市场中,浪潮的 POWER 架构服务器必将占据一席之地。

产业浪潮IBM深度学习服务器第四范式
1
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
第四范式机构

第四范式成立于2015年初,是国际领先的人工智能技术与服务提供商,已服务20多个行业完成上千个AI落地案例。目前国内重要的国有银行和全国性股份制银行,超过一半都是第四范式的客户,此外,公司在互联网、医疗、政府、能源、零售、媒体等行业均有涉猎,诸多案例取得百分之一百以上的效果提升。

https://www.4paradigm.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

推荐文章
暂无评论
暂无评论~