拥抱Arm,将Quadro性能翻倍,英伟达刚刚还发布了全新DPU战略

第一次在全球所有时区共同开启的英伟达GTC大会,为我们带来了全新一代安培架构的Quadro显卡,面向服务器的DPU产品线,同时还有一款价格超低,堪比树莓派的Jetson芯片。 

撰文 | 泽南

「现在软件已经可以自动生成软件了,AI就是自动化过程中的自动化力量,」英伟达创始人黄仁勋在昨天的GTC秋季大会开场Keynote中说道。「AI编写的软件和人类大有不同,它们更加并行化,计算集中程度更是后者的千百倍。既然构建软件的方式不同,那么构建它们的计算基础设施、工具、软件以及开发方式也要不同。」 
人工智能需要人们重新思考计算的方法,从芯片、系统、算法、工具再到生态系统。面对如此挑战,英伟达给出了自己的最新答案。 


 一 安培架构的Quadro显卡 
在昨天的GTC Fall活动中,黄仁勋发布了安培架构的新一代专业级显卡Quadro RTX Ampere,并宣布将于今年12月交付。 
「我知道你们都在急切地想要抢到自己的安培GPU——这是绝对可以理解的,我可以保证你的等待是值得的。安培是英伟达历史上最大的一次跃升,我们每次放出新货都是立刻售罄,」黄仁勋表示。「我们正在加班加点,你的新显卡正在路上。」 
不过这次要发布的是专业级的GPU。NVIDIA的新一代Quadro RTX显卡A6000,与此前推出的RTX 30系列一样使用三星的8nm工艺打造,采用GA102 GPU,最高配备10752CUDA 核心,比RTX 3090还多256个。A6000的内存也达到了48GB,不过使用的是DDR6而非GDDR6X,因为目前后者无法实现足够高的容量。 
在性能方面,英伟达宣称A6000在一些任务上的能力是上一代产品Quadro RTX 8000的两倍,这主要是通过制程提升、吞吐量增加、新浮点算法以及内存容量提升实现的。目前英伟达还未提供A6000的更多具体数据,以及最重要的价格。已知的是,A6000的功耗比3090要低50W,仅为300W。 
另有一款功率相同的被动散热计算卡Quadro A40也将于2021年第一季度上市。A40几乎具有与主动冷却的A6000相同的所有功能,只是采用了纯被动散热的形式,适用于高密度服务器。
有了RTX显卡的算力,英伟达还推出了3D仿真模拟和协作平台Omniverse,通过这一工具,图像技术开发者们能够实时模拟出细节逼真的现实世界。它可以让负责3D建筑设计的建筑师、修改3D场景的动画师以及协作开发自动驾驶汽车的工程师,像线上共同编辑文档一样轻松设计3D虚拟场景。
目前,Omniverse已获得了许多主要专业软件的支持,如Adobe、Autodesk、Bentley Systems、Robert McNeel & Associates和SideFX等。在本次GTC上,英伟达还宣布Omniverse进入公测阶段,将于今年秋季开放下载。
 
 二 最便宜的英伟达Jetson,59美元一块 
「任何动起来的东西,在未来或多或少都会是自动化的。AI技术的突破已经让各种各样的机器人形态成为可能,」黄仁勋说道。「但我们还需要Jetson AI的算力把这些机器人实用化。」 
和以往一样,Jetson拥有一个Arm架构的SoC,也支持CUDA,并拥有自己的Tensor Core。而更重要的是,昨天新发布的Jetson Nano 2GB价格已经低至 59 美元一块——这是一个和树莓派(Raspberry Pi 4)接近的低价。现在,英伟达希望所有人都可以使用GPU制造自己的机器人。
构建机器人相关的软件和AI的开发流程有些类似,人们会使用DGX这样的设备编写和训练,并在Jetson这样的端侧运行。在实践中,英伟达研究人员已经训练了很多现成模型,使用迁移学习工具,任何人都可以把它们应用在自己的任务上。在机器人领域,现在还可以通过实时的AI模拟环境大幅度提高训练的效率。 
  图片来自anandtech
除了价格更低之外,Jetson Nano 2GB的计算配置和常规Jetson Nano相同,有4个Cortex-A57 CPU内核的CPU,以及128个CUDA核的Maxwell架构GPU。不过2GB版本相比标准版少了DisplayPort输出,USB接口也不是3.0的。

还记得刚发布的奔驰S级吗?这台车是梅赛德斯有史以来最智能化的车型,其中搭载了三块带英伟达GPU的计算芯片。在GTC Keynote上,英伟达还宣布了和奔驰的新合作计划:到2024年,所有奔驰车系都将搭载英伟达的DRIVE AV芯片。  


 三 推出DPU,基于Arm架构的可编程数据中心芯片
我们都知道英伟达正在收购Arm,不过相比商业行为,英伟达的技术进展更快一些。这家公司在收购Mellanox之后,共同研发了新一代计算单元DPU。
英伟达推测,全球服务器的算力吞吐总量每两年增长十倍,而在2020年中,仅在AI推断任务中,在所有云服务器中使用GPU的算力数量已经超过了CPU。「按照这个趋势,在几年之后英伟达的GPU将会承载超过90%的全球AI推理算力。任何AI的应用和服务现在都可以基于英伟达芯片,」黄仁勋说道。 
AI和数据分析应用必须是分布式的,由多个GPU和节点负责运算,云服务实际上也是巨量的「微服务」,这种新型的工作负载对虚拟化、网络、存储和安全提出了新的要求。在数据中心的计算设备上,人们提出了 DPU(Data Processing Unit)的新概念。这是一种更多通过软件定义的基础设施芯片。
新发布的DPU名为Bluefield-2,这种计算卡是以可编程 Arm 架构 CPU 为核心运作的。 
Bluefield-2 DPU拥有70亿晶体管,将可编程的数据中心压缩成芯片大小。与之相对的,英伟达也发布了DOCA——可编程数据中心基础设施处理器的软件架构,允许开发者在DPU上构建自己的应用。英伟达表示,DOCA可以无缝兼容所有主流系统。
Bluefield-2只是一个开始,在英伟达的计划中,Bluefield-4将会引入CUDA和NVIDIA AI,大大加速网络中计算机视觉应用处理的速度。 
如果用户现在就对AI算力有很高需求,英伟达也发布了Bluefield-2X,其中的安培架构GPU核心可以用于处理所需任务。「Bluefield-2X可以让你就像已经拥有了Bluefield-4一样,」黄仁勋说道。「在几年之后,我们将会带来近1000倍的吞吐量,并提供200-400Gbps的数据速度。」 
在推动收购Arm的同时,英伟达也宣布了支持Arm架构的新三大战略:提供更多对Arm架构的GPU、网络、存储和安全的支持,实现更完整的加速平台;与合作伙伴开发覆盖从端侧到HPC所有平台的设备;接入NVIDIA AI和NVIDIA RTX技术到Arm架构——此前这些支持仅限于X86。 
英伟达发布的这些产品,全部是为了开发者能够在构建AI技术时获得更多力量。在昨天的GTC上,英伟达一口气升级和更新了80款SDK,目前旗下工具的总量达到了110款。目前全球使用英伟达CUDA等工具的开发者数量已达到200万人。 
「在AI时代的新形式计算中,我们会为探索前沿方向和技术民主化亲尽全力。」黄仁勋说道。
产业英伟达
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

奔驰机构

德国汽车品牌,汽车的发明者,被认为是世界上最成功的高档汽车品牌之一,其完美的技术水平、过硬的质量标准、推陈出新的创新能力、以及一系列经典轿跑车款式令人称道。奔驰三叉星已成为世界上最著名的汽车及品牌标志之一。2016年10月,奔驰排2016年全球100大最有价值品牌第9名

相关技术
推荐文章
暂无评论
暂无评论~