参数很亮眼,但新一代 IPU 的具体性能如何?本周,Graphcore 中国区技术负责人向我们透露了 IPU 二代的具体性能指标,从基准测试结果来看,GC 200 在很多指标上的确超过了英伟达最新的安培架构处理器 A100。
「Colossus Mk2 GC200 是全球最复杂的单一的处理器,拥有 250TFlops AI 浮点算力和 900MB 的处理器内存储。」Graphcore 高级副总裁,中国区总经理卢涛介绍道。「它拥有 1472 个独立的处理器内核,可执行近 9000 个单独的并行线程。相对于第一代产品,其系统级的性能提升了 8 倍以上。」
这次 Graphcore 的新发布有三大颠覆性的技术的突破,第一是计算,其次是数据,第三部分是通信。
新一代 IPU 和上代在结构上非常类似,在一颗芯片上集成了 1472 个独立的 IPU-Tiles 的单元,总共有 8832 个可以并行执行的线程,同时 In-Processor-Memory 从上一代的 300MB 提升到 900MB。每个 IPU 的 Memory 的带宽是 47.5TB/s。同时还包含了 IPU-Exchange 以及 PCI Gen4 跟主机交互的一个接口;另外有 IPU-Links 320GB/s 的一个芯片到芯片的互联。
想要对比一下的话,相比英伟达的互联技术,Graphcore 提供了超过 100 倍的带宽以及大约 10 倍的容量,对于很多复杂的 AI 模型训练而言,这会非常有帮助。
在通信方面,Graphcore 专门为 AI 横向扩展设计了 IPU-Fabric 结构。每个 IPU-Fabric 可以做到 2.8Tbps 超低时延,最多可支持 64000 个 IPU 之间的横向扩展。通过 IPU-Fabric 的技术,人们可以通过直联或以太网交换机等等技术进行服务器集群的互联。IPU-Fabric 支持集合通信、all-reduce 等操作。
因为片上存储的特殊架构,IPU 和 GPU 相比区别很大。在数据和计算密集的情况下,GPU 表现很好,但如果处理块稀疏(block sparse)、动态稀疏(dynamic sparse)的任务,随着数据的稀疏性的提高,IPU 的优势会变得越来越明显,到最终可能会比 GPU 领先 10-50 倍。「在一些领先 NLP 方向的研究中,很多研究者们正在探索数据稀疏的算法模型。像这样的技术,对很多超大规模的 AI 模型训练非常有帮助。」卢涛表示。
和上代 IPU 一样,Graphcore 通过 IPU-Machine 的形式整体出售芯片。新一代的 M2000(IPU-M2000)是一个 1U 结构的即插即用的计算刀片。在较小的空间里,Graphcore 集成了 1PFlops 的计算能力,此外它还拥有 450GB 的 Exchange-Memory;其 2.8Tbps 的 IPU-Fabric 也提供了超低延时的通信。
Graphcore 认为,M2000 可以满足当前最苛刻的机器智能工作负载,这样一台机器的零售价是 32,450 美元。
在软件方面,M2000 继续使用 Poplar 框架,与此前的 IPU 设备互相兼容。
「今年 6 月,日本的『富岳』超级计算机成为了全球超算 Top 500 的第一名,其可以达到 0.5 EFlops 的峰值算力,而我们基于 64,000 个 IPU,总共可以组建 16 个 EFlops 的算力。如果实现,最终效果将非常惊人。」卢涛说道。
我们最关心的还是具体性能。如果在系统级的尺度上对比 IPU 的二代和一代(选取配备 IPU-Link 的 8 个 C2 PCIe 卡的 IPU 服务器,和有 IPU-Fabric 的 8 个 IPU-M2000),BERT-Large 模型的训练场景中,我们可以看到 9.3 倍性能的提升。在 EfficientNet-B3 这样的计算机视觉模型上有 7.4 倍的性能提升。
和最新的英伟达安培 A100 GPU 比较呢?搭载最新 GPU 的整机 DGX A100,FP32 算力是 156TFlops,而 8 块 M2000 可以实现 2PFlops 的算力,性能是前者的 12 倍。
对于 AI 计算,在 GPU 的平台上的性能是 2.5PFlops,在 M2000 的平台上是 8PFlops,这样可以有大约三倍的性能提升。
在存储部分,相对英伟达的 320GB,Graphcore 的系统有 3.6TB,可获得将近 10 倍的提升。看起来,虽然买 Graphcore 芯片要花费更多的成本,但也可以获得更好的性能。
「在功耗上,不同的工作负载会有一些差别。大致来看,单片 M2000 的整机系统功耗为 1.1KW,折合到每颗 IPU 处理器的性能功耗比为 0.9TFlops/W。在同类面向数据中心的高性能 AI 计算产品中,A100 的性能功耗比为 0.7TFlops/W,而华为 Ascend 910 的数据为 0.71TFlops/W,Graphcore 的效率更高一些。」卢涛说道。
目前,Graphcore 已经联合金山云推出了 IPU 开发者云,面向商业用户及高校研究机构,也向个人开发者提供了免费试用。