在众人的翘首以盼下,英伟达 GTC 大会终于在五月中旬姗姗来迟。只不过,这次没有科技感十足的现场直播,只有黄老板家朴实无华的厨房。
直播开始前,黄老板特地放出了一段预热视频,DTX A100 从烤箱中「新鲜出炉」,吊足了粉丝的胃口。去年的 GTC 大会英伟达表现平平,除了自动驾驶芯片外并没有发布其他硬件产品,加之 2020 财年市场表现不佳,不少媒体猜测,「英伟达走下坡路了」。
GTC 大会 2020 可谓是向所有人证实了,「不管是硬件软件,英伟达都是第一」。
撰文 | 徐丹
一 史上最大 7 纳米制程芯片
发布会上最重磅的产品就是新一代数据中心 GPU——NVIDIA A100 GPU,这款 GPU 以最新英伟达 A100 芯片组成,采用了台积电 7nm 工艺,被认为是迄今 GPU 算力的最大一步提升。
在 A100 之前,英伟达的上一代 GPU 是基于 Volta 架构芯片 Tesla V100,V100 用 300W 功率提供了 7.8TFLOPS 的推断算力,有 210 亿个晶体管,但 A100 的算力直接是前者的 20 倍。
这款 GPU 有许多亮点,首先是第三代安培架构。安培是图灵(Turing)之后的第二代追光架构,构延续了整数、浮点、张量、光追分离的特点,只不过每组 SM 的 FP32 单元数量翻倍(INT32 数量不变),TensorCores 数量也翻倍,光追单元升级为「光追加强版」。
这款 GPU 搭载 A100 芯片,「A100 是迄今为止人类制造出的最大 7 纳米制程芯片,」黄仁勋说道。A100 采用目前最先进的台积电(TSMC)7 纳米工艺,拥有 540 亿个晶体管,它是一块 3D 堆叠芯片,面积高达 826mm^2,GPU 的最大功率达到了 400W。
826mm^2 是什么概念呢?比近年来 NVIDIA 做过的最大的芯片——GV100 还要大上一点点(815mm^2 ),再加上工艺进步带来的晶体管密度提升,GA100 的最终规模是相当恐怖的。
在实际使用效果上,A 100 表现也非常惊艳,它是首个内置弹性计算技术的多实例 GPU,提供了 NVIDIA 迄今为止最大的性能飞跃——统一了数据分析、训练和推理,将 AI 训练和推理性能提高到上一代的 20 倍,将 HPC 性能提高到上一代的 2.5 倍。
二 DGX-3 系统,推理训练于一体
除 GPU 外,英伟达亮出的第二个杀手锏就是「推进 AI 的终极工具」,全球最先进的 AI 系统,第 3 代 GDX A100。
NVIDIA DGX A100 系统将训练、推理、数据分析统一于一个平台。
这是世界上第一台单节点 AI 算力达到 5 PFLOPS 的服务器,首次在一个单一、灵活的平台上提供整个数据中心的功率和性能。每个 DGX A100 系统内部集成了 8 个 NVIDIA A100 GPU 和 320GB 内存。借助 A100 多实例 GPU 特性,每个系统可配置 1 到 56 个独立的 GPU 实例,从而交付灵活的、软件定义的数据中心基础设施。
在实际使用效果上也是惊艳,「云服务厂家应该很喜欢它。」现场老黄说,按照英伟达算的帐,今天的数据中心假如使用 50 个 DGX-1 系统(基于 Tesla P100)用于 AI 算法的训练,600 个 CPU 用于推断,硬件成本是 1100 万美元,需要使用 25 个服务器机架,消耗 630kW 功率。
使用最新的 DGX A100,我们只需要并联 5 个 DGX A100 系统,GPU 同时用于 AI 训练和推断,成本 100 万美元,1 个机架,使用 28kW 功率。
果然印证了那句话,「The more you buy, the more you save !」
DGX A100 系统由 NVIDIA DGX 软件栈提供支持,其中包括针对 AI 和数据科学工作负载的优化软件,支持加速 Spark 3.0、RAPIDS、Triton、TensorFlow、PyTorch 等,使企业在 AI 基础设施上的投资获得更快的回报。
DGX-3
结合这些功能,企业可以在一个完全集成的、软件定义的平台上优化算力和按需资源,以加速数据分析、训练和推理等不同工作负载。
但是,这么大的 GPU 值多少钱呢?据英伟达官方,DGX-3 售价 19.9 万美元,已经开始在全球范围内交付,首批 OEM 厂商包括浪潮、联想、惠普。第一批 DGX A100 系统于本月早些时候交付给美国阿贡国家实验室(Argonne National Laboratory),用于加速 COVID-19 研究。
上线的云服务公司覆盖 AWS、微软、谷歌、阿里巴巴、腾讯、百度,存储技术供应商 DDN 存储、戴尔、IBM、NetApp、Pure Storage 和 Vast 均计划将 DGX A100 集成到他们的产品中。
除次之外,发布会产品还包括用于侧端芯片的 Nvidia EGX A100,将应用于小鹏汽车 P7,以及宝马集团采用英伟达解决方案全面提升工厂物流管理水平的例子。
在软件方面,英伟达推出了自己的语音交互框架 Jarvis,Apache Spark 3.0,更新了与 GPU 相匹配的软件 CUDA 11,以支持最新的 Ampere GPU 架构、多实例 GPU(MIG)分区功能,并为任务图、异步数据移动、细粒度同步和 L2 缓存驻留控制编程并提供 API。
可谓是一套硬软件齐全的「豪华大礼包」。
三 先进制成加持光追技术,「AMD 们别想做英伟达杀手了」
「AMD 们别想做英伟达杀手了。」
此次 GTC 大会过后,英伟达坐实了芯片一哥的地位,但此之前,英伟达的发展还是经历了一番波折。
去年和前年的英伟达 GTC 大会着实表现平平,并没有拿得出手的重量级产品,尽管苏州场大会黄老板穿着皮衣热舞双节棍飙中文,也掩盖不住产品的无趣。
2020 财年,英伟达的营收和净利润都出现了下滑,有媒体认为,在矿机潮后,英伟达后续发展乏力。竞争对手也趁虚而入。
去年媒体就爆料,AMD 正在开发一款 GPU,内部称之为「英伟达杀手」。这款 GPU 将以Navi 21 和 Navi 23 的形式出现,在此之前,AMD 已经证实,RDNA 2 显卡将采用 7nm+制造工艺,预计在 2020 年年中发布。
英特尔也在大举重返独立显卡市场,年初的 CES 展会期间,Intel 公布了首款独立显卡「DG1」,并进行了游戏演示,还发放了开发套件,更高端的 DG2 据说会采用台积电的 10nm 工艺。
虽然目前二者在 GPU 市场都比不上英伟达,但翻盘的故事我们也看过不少,尤其 AMD 和英伟达已经上了 7nm,领先了英伟达一程。大家津津乐道的是,三国的故事会不会改写?GTC 2020 大会告诉大家,不会。
让英伟达如此出彩的一个关键是制成的提升,这次它终于用上了台积电的 7nm 工艺。
如今 7nm 已经不是一个新鲜事了,早在 2018 年,AMD 的 Zen2 处理器就用上了 7nm HPC 工艺,如今 7nm 的 Zen3 处理器也已经开卖一段时间了,华为等手机都已经上了 5nm。国内的芯片厂商,如寒武纪等也早在 2018 年就用上了 7nm。英伟达却一直对拥抱先进制成不太积极。
其中的原因可能是黄仁勋对自己架构的自信。「英伟达的架构不同于其他品牌架构」,黄仁勋在回应媒体制成问题时说。
英伟达的图灵和安培架构都采用了实时光追技术,该技术用专有的硬件来加速了传统光线追踪算法中的光线在加速结构 BVH 的遍历,以及光线和三角形的求交测试(Ray Triangle Intersection Test),大大提升了算力。所以,英伟达 12nm 制成就可以达到 AMD 7nm 制成 GPU 的性能,综合性价比考虑,黄仁勋认为 12nm 制成是最适用于图灵架构的。
但当英伟达想追求更大的性能时,同样的制成,依靠光追架构,就能碾压友商。所以才有了这次「人类有史以来做出的最大芯片 A100」,先进制成的加持下,晶体管密度堪称恐怖。
所以,即便 AMD、寒武纪们制成可以与英伟达一样,但在性能上还是望其项背。
四 数据中心,下一个十年的战场
另一个值得注意的点是,此次英伟达并没有更新消费级显卡,黄仁勋回应说,「全新架构安培我们现在已经用在 DGX 上了,英伟达正在努力把新架构的芯片用在机器人、自动驾驶汽车等领域中。未来也会用在图形计算上。」
「未来也会用在图形计算上」,真是一个谨慎的表达。这背后也是反应了英伟达战略的变化,游戏可能已经逐渐的,悄悄的推出英伟达的主攻领域。
4 月 21 日,英伟达云游戏平台在其官方 Blog 上宣布,Xbox Game Studio、华纳兄弟、Codemasters 以及 Klei Entertainment 四家游戏合作伙伴将在 4 月 24 日结束与 GeForce Now 的合作关系,这对英伟达游戏业务是一个很大的损失,云游戏市场也在逐渐饱和。
与此同时,今年 2 月,英伟达数据中心板块的收入达到了创纪录的 9.8 亿美元,同比增长 43%。4 月英伟达也并购了生产用于在数据中心内部连接服务器的芯片厂商 Mellanox,补足了自己在云中心的短板。
发布会开始时,黄仁勋演讲时也提到,「未来十年,数据中心的规模计算将成为标准。」
未来十年,数据中心可能也会成为芯片厂商们竞争的下一个赛道,毫无疑问的是,英伟达已经跑在前面了。