编辑李泽南

性能超越英伟达A100:Graphcore IPU二代性能参数曝光

7 月 15 日,AI 芯片公司 Graphcore 发布了第 2 代 IPU GC200,其采用台积电 7 纳米制程,多达 594 亿个晶体管的设计,既达到了上一代 IPU 的八倍,也超过了今年 5 月英伟达推出的最新安培架构 GPU Tesla A100。

参数很亮眼,但新一代 IPU 的具体性能如何?本周,Graphcore 中国区技术负责人向我们透露了 IPU 二代的具体性能指标,从基准测试结果来看,GC 200 在很多指标上的确超过了英伟达最新的安培架构处理器 A100。

「Colossus Mk2 GC200 是全球最复杂的单一的处理器,拥有 250TFlops AI 浮点算力和 900MB 的处理器内存储。」Graphcore 高级副总裁,中国区总经理卢涛介绍道。「它拥有 1472 个独立的处理器内核,可执行近 9000 个单独的并行线程。相对于第一代产品,其系统级的性能提升了 8 倍以上。」

这次 Graphcore 的新发布有三大颠覆性的技术的突破,第一是计算,其次是数据,第三部分是通信。

新一代 IPU 和上代在结构上非常类似,在一颗芯片上集成了 1472 个独立的 IPU-Tiles 的单元,总共有 8832 个可以并行执行的线程,同时 In-Processor-Memory 从上一代的 300MB 提升到 900MB。每个 IPU 的 Memory 的带宽是 47.5TB/s。同时还包含了 IPU-Exchange 以及 PCI Gen4 跟主机交互的一个接口;另外有 IPU-Links 320GB/s 的一个芯片到芯片的互联。

想要对比一下的话,相比英伟达的互联技术,Graphcore 提供了超过 100 倍的带宽以及大约 10 倍的容量,对于很多复杂的 AI 模型训练而言,这会非常有帮助。

在通信方面,Graphcore 专门为 AI 横向扩展设计了 IPU-Fabric 结构。每个 IPU-Fabric 可以做到 2.8Tbps 超低时延,最多可支持 64000 个 IPU 之间的横向扩展。通过 IPU-Fabric 的技术,人们可以通过直联或以太网交换机等等技术进行服务器集群的互联。IPU-Fabric 支持集合通信、all-reduce 等操作。

因为片上存储的特殊架构,IPU 和 GPU 相比区别很大。在数据和计算密集的情况下,GPU 表现很好,但如果处理块稀疏(block sparse)、动态稀疏(dynamic sparse)的任务,随着数据的稀疏性的提高,IPU 的优势会变得越来越明显,到最终可能会比 GPU 领先 10-50 倍。「在一些领先 NLP 方向的研究中,很多研究者们正在探索数据稀疏的算法模型。像这样的技术,对很多超大规模的 AI 模型训练非常有帮助。」卢涛表示。

和上代 IPU 一样,Graphcore 通过 IPU-Machine 的形式整体出售芯片。新一代的 M2000(IPU-M2000)是一个 1U 结构的即插即用的计算刀片。在较小的空间里,Graphcore 集成了 1PFlops 的计算能力,此外它还拥有 450GB 的 Exchange-Memory;其 2.8Tbps 的 IPU-Fabric 也提供了超低延时的通信。

Graphcore 认为,M2000 可以满足当前最苛刻的机器智能工作负载,这样一台机器的零售价是 32,450 美元。

在软件方面,M2000 继续使用 Poplar 框架,与此前的 IPU 设备互相兼容。

「今年 6 月,日本的『富岳』超级计算机成为了全球超算 Top 500 的第一名,其可以达到 0.5 EFlops 的峰值算力,而我们基于 64,000 个 IPU,总共可以组建 16 个 EFlops 的算力。如果实现,最终效果将非常惊人。」卢涛说道。

我们最关心的还是具体性能。如果在系统级的尺度上对比 IPU 的二代和一代(选取配备 IPU-Link 的 8 个 C2 PCIe 卡的 IPU 服务器,和有 IPU-Fabric 的 8 个 IPU-M2000),BERT-Large 模型的训练场景中,我们可以看到 9.3 倍性能的提升。在 EfficientNet-B3 这样的计算机视觉模型上有 7.4 倍的性能提升。

和最新的英伟达安培 A100 GPU 比较呢?搭载最新 GPU 的整机 DGX A100,FP32 算力是 156TFlops,而 8 块 M2000 可以实现 2PFlops 的算力,性能是前者的 12 倍。

对于 AI 计算,在 GPU 的平台上的性能是 2.5PFlops,在 M2000 的平台上是 8PFlops,这样可以有大约三倍的性能提升。

在存储部分,相对英伟达的 320GB,Graphcore 的系统有 3.6TB,可获得将近 10 倍的提升。看起来,虽然买 Graphcore 芯片要花费更多的成本,但也可以获得更好的性能。

「在功耗上,不同的工作负载会有一些差别。大致来看,单片 M2000 的整机系统功耗为 1.1KW,折合到每颗 IPU 处理器的性能功耗比为 0.9TFlops/W。在同类面向数据中心的高性能 AI 计算产品中,A100 的性能功耗比为 0.7TFlops/W,而华为 Ascend 910 的数据为 0.71TFlops/W,Graphcore 的效率更高一些。」卢涛说道。

目前,Graphcore 已经联合金山云推出了 IPU 开发者云,面向商业用户及高校研究机构,也向个人开发者提供了免费试用。

产业参数AI芯片Graphcore
相关数据
Graphcore机构

Graphcore 成立于 2016 年,该公司正在开发一种新型处理器——IPU(intelligent processing unit /智能处理器),可以用来帮助加速机器智能产品和服务的开发。除此之外,该公司还开发了一套可以帮助用户无缝使用 TensorFlow 和 MXNet 等机器学习框架的接口,并为此提供了一个包含工具、驱动和应用库的开源软件框架 Poplar。 其总部位于英国布里斯托,两位联合创始人 CEO Nigel Toon、CTO Simons Knowles 此前还共同创立过市值 4.35 亿美金的 3G 蜂窝芯片公司 Icera,后卖给英伟达。所以在 Graphcore 的创立过程中,Toon 尤其强调其独立性,为避免多轮融资股份被过度稀释,还特意找来了知名投行高盛作为顾问。 与一般的新锐公司不同,Graphcore 自创立之初就底气十足。他们自称,在人工智能学习的反应速度以及低能耗方面,其开发的产品要比目前市场上所有的图像处理解决方案好 10 到 100 倍。CEO NigelToon 曾在采访中提到,希望 Graphcore 能够上市,做到英国最领先的芯片制造商。

相关技术
金山云机构
推荐文章
暂无评论
暂无评论~