很多人都对 IBM 全新的 POWER 9 CPU、英伟达 Volta GPU 以及 NVLink 高速互联技术有所了解。今年 10 月,在浪潮商用机器推出的全新OpenPOWER服务器中,这些技术已走出实验室,将为各家科技公司带来人工智能计算的强大动力。
号称「为 AI 运算设计」的 POWER 9 会对服务器市场带来多大的冲击?近日,机器之心来到了浪潮商用机器公司,与浪潮的工程师们聊了聊,深入了解了全新芯片架构,以及新服务器的强大性能。
浪潮表示,这款被称为「全球最强 AI 服务器」的新产品,其强大之处在于:
- 采用了「最卓越 CPU+最强悍 GPU」POWER 9 与 Tesla V100 的组合
- 首发支持 PCIe 4.0 传输技术
- 最简洁,最有特色的 AI/HPC 专用架构
- 带来 PowerAI 深度学习框架,已为企业应用部署做好准备
架构带来的高维度优势
与市面上大部分 x86 计算机不同,POWER 9 架构采用了特有的硬件架构。2013 年,IBM 发起了 OpenPOWER 计划,致力于推动高度可扩展性和计算加速性能。去年 12 月,IBM 推出了新一代 POWER 9 处理器,其强大的性能引起了业内的广泛关注。目前,谷歌、阿里巴巴、腾讯和大华等科技公司都成为了 POWER 9 服务器的合作伙伴,正在测试和应用搭载 POWER 9 的系统。
「OpenPOWER 一方面包含处理器,它开放了授权,允许合作伙伴共同开发处理器性能。」OpenPOWER 服务器产品经理张峰介绍道,「POWER 架构面向很多新兴应用负载进行了大量转型。同时,它也采用了最先进的技术,率先提供了原生 PCIe4.0 的支持。」
作为新服务器带来的重要优势,PCIe 4.0 相对于上一个版本(PCIe 3.0),延迟可降低 30%,带宽则多了一倍。而对于目前被大量使用的 x86 架构来说,我们可能要等到 2020 年才能看到对于 PCIe 4 的支持。
在 CPU 方面,POWER 9 目前提供三种型号的处理器:其中 Sforza 对标 x86 平台的英特尔 Skylake 处理器,面向云计算和大数据中心;Lagrange 则面向企业级商业计算;最后是 Monza,面向高性能计算、人工智能计算,其中也包含了对于 NVlink2.0 的支持。
浪潮商用机器即将在 10 月推出的 AI 服务器 FP5295G2 采用了 Monza 处理器,并包含了 4 块 由 NVlink 2.0 连接的 英伟达 Tesla V100 计算卡。它被认为是「企业级 AI 计算的最佳平台」,浪潮称,其采用了最卓越 CPU 和最强悍的 GPU 的组合。
技术人员表示,在全新服务器的 POWER 9 架构中,系统提供了 4 条 xBus 互联CPU,可实现64GB/s 的传输速度、两倍于x86平台的线程数量和 NVLink 2.0 原生连接。FP5295G2 也是首个开放内存地址空间的产品:这意味着 CPU 和 GPU 的内存空间可以相互访问,可以让开发阶段的编程更加迅捷。
体系结构是FP5295G2 超越 x86 服务器的最大优势。在浪潮的实验室中,开发人员用新服务器和英伟达 DGX-1 做了对比,由于拓扑结构更加简洁,浪潮 FP5295 的 POWER 架构相对于 x86 架构仅在 NVLink 速度上就有 4 倍的带宽提升。
浪潮认为,FP5295G2 相对于目前市场上的 x86 服务器,具有体系结构维度上的优势。
对于 POWER 9 架构而言,Summit 就是目前最大的应用案例,它应用了 4600多 个服务器节点(其形式和FP5295G2 相同),可实现每秒 20 亿亿的计算。
深度学习框架
在强大的计算性能之上,POWER 架构对于企业级 AI 应用的开发和部署提供了完整的支持,其集成深度学习框架被称为 PowerAI。
针对所有 POWER 架构服务器,浪潮和 IBM 都会提供免费的 PowerAI Base 工具包,其中包括对于 TensorFlow、Caffe、PyTorch、Chariner 等最流行的深度学习框架支持。其中,DDL 部分免费,而 Large Model Support(LMS)则完全免费。浪潮称,今年晚些时候,这些工具都将完全开源,以供更多用户使用。
针对企业客户资源分配、监管等需求,浪潮还提供了 PowerAI Enterprise,这是一种面向企业级用户的完整解决方案。其可对任务运行状态进行可视化监控,并有效进行调度。其中的深度学习工具包可支持用户对深度学习业务的全流程上进行部署:从数据准备到训练,最后到推断和模型上线。
此外还有 PowerAI Vision,这是一种面向计算机视觉的解决方案。支持快速标签、模型训练到部署这一计算机视觉完整流程。
在 POWER 9 架构上,Large Model Support 被认为是能够有效提高模型部署效率的功能。它能够让显卡有效利用显存之外的计算机内存,以适应超大深度学习模型,节省训练时间。结合 GPU 上的 NVLink,POWER 服务器在模型训练时相比 x86 架构可节省一半时间以上。在已有案例中,这种架构已经显著提升了医疗影像、3D 建模等任务中的处理速度。
浪潮的新服务器在并行化方面也占优势。在高带宽架构的帮助下,新服务器的并行加速比可达 95%,这意味着多个节点并联时,其计算效率几乎保持线性提升,这一数字超过了 facebook 此前达成的 89.6%,成为了世界上最快的并行架构。
对比基于至强 E5-2640 的服务器,浪潮服务器在 Chainer 模型上的运行速度快 3.7 倍,Caffe 模型上速度快 3.8 倍(利用了 Large Model Support),TensorFlow 模型的运行速度则提升了 2.3 倍。
「针对目前业内出现的一机 8 GPU 的 x86 服务器,我们也进行了性能对比,发现 4GPU 的 POWER 服务器比 8GPU 的 x86 服务器还要快。这体现了 POWER 架构在并行化方面的巨大优势。」浪潮商用机器技术工程师孙建介绍道。
POWER 架构的未来
尽管 IBM 在高性能计算领域有着很多成就,但目前其主推的 POWER 架构仍不是服务器市场上的主流。近几年来由深度学习引发的 AI 潮流或许能为这一架构带来新的机会。
「五年前随着云计算、大数据和人工智能的崛起,人们发现计算不再是为数据库进行单一服务的工具了。除了传统应用场景以外,人们还需要更多的计算资源,和更多的专有优化。」张峰表示。
面向大数据,人们需要更大的存储和数据吞吐量,应用场景的迁移变革了体系结构及支撑平台。POWER 架构也针对这些需求做出了自己的转型,POWER 9 就是 IBM 努力的最新结果。
浪潮商用机器正面向 AI 科技公司提供个性化的产品。9 月 10 日,这家公司与第四范式联合发布了 AI 软硬件一体机产品「Prophet AIO」,这是首个针对超大规模数据挖掘与机器学习计算问题所推出的 AI 一体机产品。第四范式称,在同等成本的情况下,基于 POWER 架构的 Prophet AIO 整体性能较普通服务器可提升 10 倍以上。
浪潮商用机器由浪潮和 IBM 于今年 5 月联合成立,目前已有近 200 人的研发团队规模。据悉,浪潮商用机器正在参与下一代 POWER 10 架构的设计(预计会于 2020 年推出),并在 2019 年推出采用 POWER 9+ CPU 的服务器。在未来,浪潮商用机器的设计将为全球提供服务。
相信在未来的服务器市场中,浪潮的 POWER 架构服务器必将占据一席之地。