Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

黄仁勋烤箱出炉性能最强GPU,7nm助英伟达重登巅峰

黄仁勋烤箱出炉性能最强GPU,7nm助英伟达重登巅峰

在众人的翘首以盼下,英伟达 GTC 大会终于在五月中旬姗姗来迟。只不过,这次没有科技感十足的现场直播,只有黄老板家朴实无华的厨房。

直播开始前,黄老板特地放出了一段预热视频,DTX A100 从烤箱中「新鲜出炉」,吊足了粉丝的胃口。去年的 GTC 大会英伟达表现平平,除了自动驾驶芯片外并没有发布其他硬件产品,加之 2020 财年市场表现不佳,不少媒体猜测,「英伟达走下坡路了」。

GTC 大会 2020 可谓是向所有人证实了,「不管是硬件软件,英伟达都是第一」。

撰文 | 徐丹

一 史上最大 7 纳米制程芯片

发布会上最重磅的产品就是新一代数据中心 GPU——NVIDIA A100 GPU,这款 GPU 以最新英伟达 A100 芯片组成,采用了台积电 7nm 工艺,被认为是迄今 GPU 算力的最大一步提升。

黄仁勋烤箱出炉性能最强GPU,7nm助英伟达重登巅峰

在 A100 之前,英伟达的上一代 GPU 是基于 Volta 架构芯片 Tesla V100,V100 用 300W 功率提供了 7.8TFLOPS 的推断算力,有 210 亿个晶体管,但 A100 的算力直接是前者的 20 倍。

这款 GPU 有许多亮点,首先是第三代安培架构。安培是图灵(Turing)之后的第二代追光架构,构延续了整数、浮点、张量、光追分离的特点,只不过每组 SM 的 FP32 单元数量翻倍(INT32 数量不变),TensorCores 数量也翻倍,光追单元升级为「光追加强版」。

这款 GPU 搭载 A100 芯片,「A100 是迄今为止人类制造出的最大 7 纳米制程芯片,」黄仁勋说道。A100 采用目前最先进的台积电(TSMC)7 纳米工艺,拥有 540 亿个晶体管,它是一块 3D 堆叠芯片,面积高达 826mm^2,GPU 的最大功率达到了 400W。

826mm^2 是什么概念呢?比近年来 NVIDIA 做过的最大的芯片——GV100 还要大上一点点(815mm^2 ),再加上工艺进步带来的晶体管密度提升,GA100 的最终规模是相当恐怖的。

在实际使用效果上,A 100 表现也非常惊艳,它是首个内置弹性计算技术的多实例 GPU,提供了 NVIDIA 迄今为止最大的性能飞跃——统一了数据分析、训练和推理,将 AI 训练和推理性能提高到上一代的 20 倍,将 HPC 性能提高到上一代的 2.5 倍。


二 DGX-3 系统,推理训练于一体

除 GPU 外,英伟达亮出的第二个杀手锏就是「推进 AI 的终极工具」,全球最先进的 AI 系统,第 3 代 GDX A100。

NVIDIA DGX A100 系统将训练、推理、数据分析统一于一个平台。

黄仁勋烤箱出炉性能最强GPU,7nm助英伟达重登巅峰

这是世界上第一台单节点 AI 算力达到 5 PFLOPS 的服务器,首次在一个单一、灵活的平台上提供整个数据中心的功率和性能。每个 DGX A100 系统内部集成了 8 个 NVIDIA A100 GPU 和 320GB 内存。借助 A100 多实例 GPU 特性,每个系统可配置 1 到 56 个独立的 GPU 实例,从而交付灵活的、软件定义的数据中心基础设施。

在实际使用效果上也是惊艳,「云服务厂家应该很喜欢它。」现场老黄说,按照英伟达算的帐,今天的数据中心假如使用 50 个 DGX-1 系统(基于 Tesla P100)用于 AI 算法的训练,600 个 CPU 用于推断,硬件成本是 1100 万美元,需要使用 25 个服务器机架,消耗 630kW 功率。

使用最新的 DGX A100,我们只需要并联 5 个 DGX A100 系统,GPU 同时用于 AI 训练和推断,成本 100 万美元,1 个机架,使用 28kW 功率。

果然印证了那句话,「The more you buy, the more you save !」

DGX A100 系统由 NVIDIA DGX 软件栈提供支持,其中包括针对 AI 和数据科学工作负载的优化软件,支持加速 Spark 3.0、RAPIDS、Triton、TensorFlow、PyTorch 等,使企业在 AI 基础设施上的投资获得更快的回报。

黄仁勋烤箱出炉性能最强GPU,7nm助英伟达重登巅峰

DGX-3

结合这些功能,企业可以在一个完全集成的、软件定义的平台上优化算力和按需资源,以加速数据分析、训练和推理等不同工作负载。

但是,这么大的 GPU 值多少钱呢?据英伟达官方,DGX-3 售价 19.9 万美元,已经开始在全球范围内交付,首批 OEM 厂商包括浪潮、联想、惠普。第一批 DGX A100 系统于本月早些时候交付给美国阿贡国家实验室(Argonne National Laboratory),用于加速 COVID-19 研究。

上线的云服务公司覆盖 AWS微软、谷歌、阿里巴巴腾讯百度,存储技术供应商 DDN 存储、戴尔、IBM、NetApp、Pure Storage 和 Vast 均计划将 DGX A100 集成到他们的产品中。

除次之外,发布会产品还包括用于侧端芯片的 Nvidia EGX A100,将应用于小鹏汽车 P7,以及宝马集团采用英伟达解决方案全面提升工厂物流管理水平的例子。

在软件方面,英伟达推出了自己的语音交互框架 Jarvis,Apache Spark 3.0,更新了与 GPU 相匹配的软件 CUDA 11,以支持最新的 Ampere GPU 架构、多实例 GPU(MIG)分区功能,并为任务图、异步数据移动、细粒度同步和 L2 缓存驻留控制编程并提供 API。

可谓是一套硬软件齐全的「豪华大礼包」。


三 先进制成加持光追技术,「AMD 们别想做英伟达杀手了」

「AMD 们别想做英伟达杀手了。」

此次 GTC 大会过后,英伟达坐实了芯片一哥的地位,但此之前,英伟达的发展还是经历了一番波折。

去年和前年的英伟达 GTC 大会着实表现平平,并没有拿得出手的重量级产品,尽管苏州场大会黄老板穿着皮衣热舞双节棍飙中文,也掩盖不住产品的无趣。

2020 财年,英伟达的营收和净利润都出现了下滑,有媒体认为,在矿机潮后,英伟达后续发展乏力。竞争对手也趁虚而入。

去年媒体就爆料,AMD 正在开发一款 GPU,内部称之为「英伟达杀手」。这款 GPU 将以Navi 21 和 Navi 23 的形式出现,在此之前,AMD 已经证实,RDNA 2 显卡将采用 7nm+制造工艺,预计在 2020 年年中发布。

英特尔也在大举重返独立显卡市场,年初的 CES 展会期间,Intel 公布了首款独立显卡「DG1」,并进行了游戏演示,还发放了开发套件,更高端的 DG2 据说会采用台积电的 10nm 工艺。

虽然目前二者在 GPU 市场都比不上英伟达,但翻盘的故事我们也看过不少,尤其 AMD 和英伟达已经上了 7nm,领先了英伟达一程。大家津津乐道的是,三国的故事会不会改写?GTC 2020 大会告诉大家,不会。

黄仁勋烤箱出炉性能最强GPU,7nm助英伟达重登巅峰

让英伟达如此出彩的一个关键是制成的提升,这次它终于用上了台积电的 7nm 工艺。

如今 7nm 已经不是一个新鲜事了,早在 2018 年,AMD 的 Zen2 处理器就用上了 7nm HPC 工艺,如今 7nm 的 Zen3 处理器也已经开卖一段时间了,华为等手机都已经上了 5nm。国内的芯片厂商,如寒武纪等也早在 2018 年就用上了 7nm。英伟达却一直对拥抱先进制成不太积极。

其中的原因可能是黄仁勋对自己架构的自信。「英伟达的架构不同于其他品牌架构」,黄仁勋在回应媒体制成问题时说。

英伟达的图灵和安培架构都采用了实时光追技术,该技术用专有的硬件来加速了传统光线追踪算法中的光线在加速结构 BVH 的遍历,以及光线和三角形的求交测试(Ray Triangle Intersection Test),大大提升了算力。所以,英伟达 12nm 制成就可以达到 AMD 7nm 制成 GPU 的性能,综合性价比考虑,黄仁勋认为 12nm 制成是最适用于图灵架构的。

但当英伟达想追求更大的性能时,同样的制成,依靠光追架构,就能碾压友商。所以才有了这次「人类有史以来做出的最大芯片 A100」,先进制成的加持下,晶体管密度堪称恐怖。

所以,即便 AMD、寒武纪们制成可以与英伟达一样,但在性能上还是望其项背。


四 数据中心,下一个十年的战场

另一个值得注意的点是,此次英伟达并没有更新消费级显卡,黄仁勋回应说,「全新架构安培我们现在已经用在 DGX 上了,英伟达正在努力把新架构的芯片用在机器人、自动驾驶汽车等领域中。未来也会用在图形计算上。」

「未来也会用在图形计算上」,真是一个谨慎的表达。这背后也是反应了英伟达战略的变化,游戏可能已经逐渐的,悄悄的推出英伟达的主攻领域。

4 月 21 日,英伟达云游戏平台在其官方 Blog 上宣布,Xbox Game Studio、华纳兄弟、Codemasters 以及 Klei Entertainment 四家游戏合作伙伴将在 4 月 24 日结束与 GeForce Now 的合作关系,这对英伟达游戏业务是一个很大的损失,云游戏市场也在逐渐饱和。

与此同时,今年 2 月,英伟达数据中心板块的收入达到了创纪录的 9.8 亿美元,同比增长 43%。4 月英伟达也并购了生产用于在数据中心内部连接服务器的芯片厂商 Mellanox,补足了自己在云中心的短板。

发布会开始时,黄仁勋演讲时也提到,「未来十年,数据中心的规模计算将成为标准。」

未来十年,数据中心可能也会成为芯片厂商们竞争的下一个赛道,毫无疑问的是,英伟达已经跑在前面了。

产业英伟达智能芯片GTC 大会
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
寒武纪机构

寒武纪科技是一家AI芯片研发商。致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片,同时还为用户提供IP授权、芯片服务、智能子卡和智能平台等服务。

www.cambricon.com
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

Apache Spark技术

Apache Spark是一款快速、灵活且对开发者友好的工具,也是大型SQL、批处理、流处理和机器学习的领先平台。它是一个围绕速度、易用性和复杂分析构建的大数据处理框架,提供了一个全面、统一的框架用于管理各种不同性质(文本数据、图表数据等)数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

光线追踪技术

在计算机图形学中,光线跟踪是一种渲染技术,用于通过将光的路径跟踪为图像平面中的像素并模拟虚拟对象对光线的接收效果来生成图像。 该技术能够产生非常高的视觉真实感,通常高于典型扫描线渲染方法,但计算成本更高。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
联想集团机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
宝马机构

宝马(BMW)是享誉世界的豪华汽车品牌。宝马的车系有1、2、3、4、5、6、7、8、i、X、Z等几个系列,还有在各系基础上进行改进的M系(宝马官方的高性能改装部门)。 宝马公司创建于1916年,总部设在德国巴伐利亚州慕尼黑。BMW的蓝白标志宝马总部所在地巴伐利亚州州旗的颜色。百年来,宝马汽车由最初的一家飞机引擎生产厂发展成为以高级轿车为主导,并生产享誉全球的飞机引擎、越野车和摩托车的企业集团,名列世界汽车公司前列。其全称为Bavarian Motor Work。 2018年7月10日,长城公司与宝马公司签署合资协议,合资成立光束汽车有限公司。2018年10月11日,宝马集团举行了中国战略协议签字仪式和华晨宝马铁西新工厂开工仪式。宝马对华晨宝马投资新增30亿欧元,合资协议延至2040年。 2018年12月18日,世界品牌实验室编制的《2018世界品牌500强》揭晓,宝马排名第16位。

www.bmwgroup.com
相关技术
推荐文章
暂无评论
暂无评论~