Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

编辑李泽南

性能超越英伟达A100:Graphcore IPU二代性能参数曝光

7 月 15 日,AI 芯片公司 Graphcore 发布了第 2 代 IPU GC200,其采用台积电 7 纳米制程,多达 594 亿个晶体管的设计,既达到了上一代 IPU 的八倍,也超过了今年 5 月英伟达推出的最新安培架构 GPU Tesla A100。

参数很亮眼,但新一代 IPU 的具体性能如何?本周,Graphcore 中国区技术负责人向我们透露了 IPU 二代的具体性能指标,从基准测试结果来看,GC 200 在很多指标上的确超过了英伟达最新的安培架构处理器 A100。

「Colossus Mk2 GC200 是全球最复杂的单一的处理器,拥有 250TFlops AI 浮点算力和 900MB 的处理器内存储。」Graphcore 高级副总裁,中国区总经理卢涛介绍道。「它拥有 1472 个独立的处理器内核,可执行近 9000 个单独的并行线程。相对于第一代产品,其系统级的性能提升了 8 倍以上。」

这次 Graphcore 的新发布有三大颠覆性的技术的突破,第一是计算,其次是数据,第三部分是通信。

新一代 IPU 和上代在结构上非常类似,在一颗芯片上集成了 1472 个独立的 IPU-Tiles 的单元,总共有 8832 个可以并行执行的线程,同时 In-Processor-Memory 从上一代的 300MB 提升到 900MB。每个 IPU 的 Memory 的带宽是 47.5TB/s。同时还包含了 IPU-Exchange 以及 PCI Gen4 跟主机交互的一个接口;另外有 IPU-Links 320GB/s 的一个芯片到芯片的互联。

想要对比一下的话,相比英伟达的互联技术,Graphcore 提供了超过 100 倍的带宽以及大约 10 倍的容量,对于很多复杂的 AI 模型训练而言,这会非常有帮助。

在通信方面,Graphcore 专门为 AI 横向扩展设计了 IPU-Fabric 结构。每个 IPU-Fabric 可以做到 2.8Tbps 超低时延,最多可支持 64000 个 IPU 之间的横向扩展。通过 IPU-Fabric 的技术,人们可以通过直联或以太网交换机等等技术进行服务器集群的互联。IPU-Fabric 支持集合通信、all-reduce 等操作。

因为片上存储的特殊架构,IPU 和 GPU 相比区别很大。在数据和计算密集的情况下,GPU 表现很好,但如果处理块稀疏(block sparse)、动态稀疏(dynamic sparse)的任务,随着数据的稀疏性的提高,IPU 的优势会变得越来越明显,到最终可能会比 GPU 领先 10-50 倍。「在一些领先 NLP 方向的研究中,很多研究者们正在探索数据稀疏的算法模型。像这样的技术,对很多超大规模的 AI 模型训练非常有帮助。」卢涛表示。

和上代 IPU 一样,Graphcore 通过 IPU-Machine 的形式整体出售芯片。新一代的 M2000(IPU-M2000)是一个 1U 结构的即插即用的计算刀片。在较小的空间里,Graphcore 集成了 1PFlops 的计算能力,此外它还拥有 450GB 的 Exchange-Memory;其 2.8Tbps 的 IPU-Fabric 也提供了超低延时的通信。

Graphcore 认为,M2000 可以满足当前最苛刻的机器智能工作负载,这样一台机器的零售价是 32,450 美元。

在软件方面,M2000 继续使用 Poplar 框架,与此前的 IPU 设备互相兼容。

「今年 6 月,日本的『富岳』超级计算机成为了全球超算 Top 500 的第一名,其可以达到 0.5 EFlops 的峰值算力,而我们基于 64,000 个 IPU,总共可以组建 16 个 EFlops 的算力。如果实现,最终效果将非常惊人。」卢涛说道。

我们最关心的还是具体性能。如果在系统级的尺度上对比 IPU 的二代和一代(选取配备 IPU-Link 的 8 个 C2 PCIe 卡的 IPU 服务器,和有 IPU-Fabric 的 8 个 IPU-M2000),BERT-Large 模型的训练场景中,我们可以看到 9.3 倍性能的提升。在 EfficientNet-B3 这样的计算机视觉模型上有 7.4 倍的性能提升。

和最新的英伟达安培 A100 GPU 比较呢?搭载最新 GPU 的整机 DGX A100,FP32 算力是 156TFlops,而 8 块 M2000 可以实现 2PFlops 的算力,性能是前者的 12 倍。

对于 AI 计算,在 GPU 的平台上的性能是 2.5PFlops,在 M2000 的平台上是 8PFlops,这样可以有大约三倍的性能提升。

在存储部分,相对英伟达的 320GB,Graphcore 的系统有 3.6TB,可获得将近 10 倍的提升。看起来,虽然买 Graphcore 芯片要花费更多的成本,但也可以获得更好的性能。

「在功耗上,不同的工作负载会有一些差别。大致来看,单片 M2000 的整机系统功耗为 1.1KW,折合到每颗 IPU 处理器的性能功耗比为 0.9TFlops/W。在同类面向数据中心的高性能 AI 计算产品中,A100 的性能功耗比为 0.7TFlops/W,而华为 Ascend 910 的数据为 0.71TFlops/W,Graphcore 的效率更高一些。」卢涛说道。

目前,Graphcore 已经联合金山云推出了 IPU 开发者云,面向商业用户及高校研究机构,也向个人开发者提供了免费试用。

产业GraphcoreAI芯片参数
相关数据
Graphcore拟未机构

Graphcore拟未为人工智能打造计算机系统,由先进的智能处理器(IPU)提供动力,旨在满足人工智能独特的计算要求。公司于2016年成立于英国布里斯托,目前海外办公室和客户遍布欧洲、亚洲和美洲国家及地区。拟未的计算系统广泛应用在各行各业的人工智能应用中,包括制药、金融服务、汽车行业和消费互联网服务。

http://www.graphcore.cn/
相关技术
金山云机构

金山云创立于2012年,是中国前三的互联网云服务商,2020年5月在美国纳斯达克上市(股票代码:KC),业务范围遍及全球多个国家和地区。成立8年来,金山云始终坚持以客户为中心的服务理念,提供安全、可靠、稳定、高品质的云计算服务。金山云依托金山集团30年企业级服务经验,坚持技术立业,逐步构建了完备的云计算基础架构和运营体系,并通过与人工智能、大数据、物联网、区块链、边缘计算、AR/VR等先进技术有机结合,深耕行业,提供超过120种适用于政务、金融、医疗、教育、传媒、工业、视频、游戏、电商零售、地产、能源、农业等行业解决方案,服务243家头部客户。

http://www.ksyun.com/
推荐文章
暂无评论
暂无评论~