第一次在全球所有时区共同开启的英伟达GTC大会,为我们带来了全新一代安培架构的Quadro显卡,面向服务器的DPU产品线,同时还有一款价格超低,堪比树莓派的Jetson芯片。
撰文 | 泽南
「现在软件已经可以自动生成软件了,AI就是自动化过程中的自动化力量,」英伟达创始人黄仁勋在昨天的GTC秋季大会开场Keynote中说道。「AI编写的软件和人类大有不同,它们更加并行化,计算集中程度更是后者的千百倍。既然构建软件的方式不同,那么构建它们的计算基础设施、工具、软件以及开发方式也要不同。」 人工智能需要人们重新思考计算的方法,从芯片、系统、算法、工具再到生态系统。面对如此挑战,英伟达给出了自己的最新答案。
在昨天的GTC Fall活动中,黄仁勋发布了安培架构的新一代专业级显卡Quadro RTX Ampere,并宣布将于今年12月交付。 「我知道你们都在急切地想要抢到自己的安培GPU——这是绝对可以理解的,我可以保证你的等待是值得的。安培是英伟达历史上最大的一次跃升,我们每次放出新货都是立刻售罄,」黄仁勋表示。「我们正在加班加点,你的新显卡正在路上。」 不过这次要发布的是专业级的GPU。NVIDIA的新一代Quadro RTX显卡A6000,与此前推出的RTX 30系列一样使用三星的8nm工艺打造,采用GA102 GPU,最高配备10752CUDA 核心,比RTX 3090还多256个。A6000的内存也达到了48GB,不过使用的是DDR6而非GDDR6X,因为目前后者无法实现足够高的容量。 在性能方面,英伟达宣称A6000在一些任务上的能力是上一代产品Quadro RTX 8000的两倍,这主要是通过制程提升、吞吐量增加、新浮点算法以及内存容量提升实现的。目前英伟达还未提供A6000的更多具体数据,以及最重要的价格。已知的是,A6000的功耗比3090要低50W,仅为300W。 另有一款功率相同的被动散热计算卡Quadro A40也将于2021年第一季度上市。A40几乎具有与主动冷却的A6000相同的所有功能,只是采用了纯被动散热的形式,适用于高密度服务器。有了RTX显卡的算力,英伟达还推出了3D仿真模拟和协作平台Omniverse,通过这一工具,图像技术开发者们能够实时模拟出细节逼真的现实世界。它可以让负责3D建筑设计的建筑师、修改3D场景的动画师以及协作开发自动驾驶汽车的工程师,像线上共同编辑文档一样轻松设计3D虚拟场景。目前,Omniverse已获得了许多主要专业软件的支持,如Adobe、Autodesk、Bentley Systems、Robert McNeel & Associates和SideFX等。在本次GTC上,英伟达还宣布Omniverse进入公测阶段,将于今年秋季开放下载。「任何动起来的东西,在未来或多或少都会是自动化的。AI技术的突破已经让各种各样的机器人形态成为可能,」黄仁勋说道。「但我们还需要Jetson AI的算力把这些机器人实用化。」 和以往一样,Jetson拥有一个Arm架构的SoC,也支持CUDA,并拥有自己的Tensor Core。而更重要的是,昨天新发布的Jetson Nano 2GB价格已经低至 59 美元一块——这是一个和树莓派(Raspberry Pi 4)接近的低价。现在,英伟达希望所有人都可以使用GPU制造自己的机器人。构建机器人相关的软件和AI的开发流程有些类似,人们会使用DGX这样的设备编写和训练,并在Jetson这样的端侧运行。在实践中,英伟达研究人员已经训练了很多现成模型,使用迁移学习工具,任何人都可以把它们应用在自己的任务上。在机器人领域,现在还可以通过实时的AI模拟环境大幅度提高训练的效率。 除了价格更低之外,Jetson Nano 2GB的计算配置和常规Jetson Nano相同,有4个Cortex-A57 CPU内核的CPU,以及128个CUDA核的Maxwell架构GPU。不过2GB版本相比标准版少了DisplayPort输出,USB接口也不是3.0的。还记得刚发布的奔驰S级吗?这台车是梅赛德斯有史以来最智能化的车型,其中搭载了三块带英伟达GPU的计算芯片。在GTC Keynote上,英伟达还宣布了和奔驰的新合作计划:到2024年,所有奔驰车系都将搭载英伟达的DRIVE AV芯片。
三 推出DPU,基于Arm架构的可编程数据中心芯片我们都知道英伟达正在收购Arm,不过相比商业行为,英伟达的技术进展更快一些。这家公司在收购Mellanox之后,共同研发了新一代计算单元DPU。英伟达推测,全球服务器的算力吞吐总量每两年增长十倍,而在2020年中,仅在AI推断任务中,在所有云服务器中使用GPU的算力数量已经超过了CPU。「按照这个趋势,在几年之后英伟达的GPU将会承载超过90%的全球AI推理算力。任何AI的应用和服务现在都可以基于英伟达芯片,」黄仁勋说道。 AI和数据分析应用必须是分布式的,由多个GPU和节点负责运算,云服务实际上也是巨量的「微服务」,这种新型的工作负载对虚拟化、网络、存储和安全提出了新的要求。在数据中心的计算设备上,人们提出了 DPU(Data Processing Unit)的新概念。这是一种更多通过软件定义的基础设施芯片。新发布的DPU名为Bluefield-2,这种计算卡是以可编程 Arm 架构 CPU 为核心运作的。 Bluefield-2 DPU拥有70亿晶体管,将可编程的数据中心压缩成芯片大小。与之相对的,英伟达也发布了DOCA——可编程数据中心基础设施处理器的软件架构,允许开发者在DPU上构建自己的应用。英伟达表示,DOCA可以无缝兼容所有主流系统。Bluefield-2只是一个开始,在英伟达的计划中,Bluefield-4将会引入CUDA和NVIDIA AI,大大加速网络中计算机视觉应用处理的速度。 如果用户现在就对AI算力有很高需求,英伟达也发布了Bluefield-2X,其中的安培架构GPU核心可以用于处理所需任务。「Bluefield-2X可以让你就像已经拥有了Bluefield-4一样,」黄仁勋说道。「在几年之后,我们将会带来近1000倍的吞吐量,并提供200-400Gbps的数据速度。」 在推动收购Arm的同时,英伟达也宣布了支持Arm架构的新三大战略:提供更多对Arm架构的GPU、网络、存储和安全的支持,实现更完整的加速平台;与合作伙伴开发覆盖从端侧到HPC所有平台的设备;接入NVIDIA AI和NVIDIA RTX技术到Arm架构——此前这些支持仅限于X86。 英伟达发布的这些产品,全部是为了开发者能够在构建AI技术时获得更多力量。在昨天的GTC上,英伟达一口气升级和更新了80款SDK,目前旗下工具的总量达到了110款。目前全球使用英伟达CUDA等工具的开发者数量已达到200万人。 「在AI时代的新形式计算中,我们会为探索前沿方向和技术民主化亲尽全力。」黄仁勋说道。