The Next Platform作者Jeffrey Burt来源张玺编译

持续五年营收,英伟达的增长神话是如何造就的?

英伟达2019财年Q3财报显示:第三季度营收为31.81亿美元,与上年同期的26.36亿美元相比增长21%;净利润为12.30亿美元,与上年同期的8.38亿美元相比增长47%。由于Q3业绩不及华尔街预期,其盘后股价暴跌逾16%。按照其业绩展望,英伟达下个财季营收将同比下跌。

距离英伟达上一次营收同比下滑,还要追溯到2014财年Q3,而这已经是五年前的事了。

5 年前,英伟达联合创始人、CEO 黄仁勋(Jensen Huang)把重点转移到了人工智能的技术研发上。

运算平台 CUDA 的出现,让英伟达得以在 HPC 数据中心内成功部署 GPU 加速器,从而降低能耗、提高性能。黄仁勋认为,HPC 及企业计算的前景取决于人工智能的应用程度,而英伟达 GPU 的并行计算能力是基础。由于摩尔定律逐渐变慢,人工智能产业需要持续加速性能的方法。

转瞬至今,英伟达已成 AI 领域的核心玩家。AI 分支涵盖机器学习深度学习,当然也包括神经网络训练与推理。3 年前,英伟达以 Tegra 系列产品进军深度学习领域,搭载 256 核 GPU 的 Tegra 具备太字节级别深度学习负载处理能力,GeForce GTX Titan X 显卡具备神经网络训练能力。几年后,英伟达又先后推出 Drive PX 2 自动驾驶汽车开发平台,基于 Volta 架构的 GPU——Tesla V100 及支持 GPU-CPU 混合渲染的人工智能超级计算机 DGX。

英伟达战略布局涉及软件与硬件,从推理软件 TensorRT(今年第二季度发布了 TensorRT 4)、搭载英伟达 GPU 的集成优化容器 GPU 加速云平台 NGC(Nvidia GPU Cloud),到两年前发布的配备机器学习推理能力的 Tesla P4 和 P40 加速器,再到几个月前推出的 T4 Tensor Core GPU。黄仁勋本周在美国得克萨斯州达拉斯 SC18 发布会上介绍了上述所有产品。

英伟达将 DGX-2 技术应用在服务器平台 HGX-2,以便于 OEM 与 ODM 合作方将其整合到自己的设计中。DGX-2 内部集成了 16 块 Tesla V100 GPU,使用 NVSwitch 相互连接,能够提供最高达 2petaflops 的深度计算能力。首批 DGX-2 将在研究机构投入使用,包括橡树岭国家实验室、桑迪亚国家实验室、布鲁克黑文国家实验室和西北太平洋国家实验室。

黄仁勋与其他公司高管表示,人工智能机器学习深度学习和其它人工智能技术一直助力业务发展。首席财务官科莱特·克雷斯(Collette Kress)表示,今年第二季度,数据中心业务创造了 7.6 亿美元的收入,同比增长 83%,其中大部分需求来源于超大规模用户,他们的云服务中越来越多地利用人工智能技术。

「我们的 GPU 为实时服务赋能,如搜索、语音识别语音合成、翻译、推荐引擎、欺诈认定及零售应用,」克雷斯在 8 月的一次电话会议上说,「我们的人工智能和高性能计算解决方案正被越来越多的垂直产业采用,这是我们增速最快的业务之一。」

还是在这场电话会议上,黄仁勋特别强调,推理系统将成为数据中心业务的关键。

「全球有 3 千万台服务器在云端,企业中则有更多的服务器。」黄仁勋说,「我坚信,未来每台服务器都需要加速。原因很简单:人工智能深度学习软件及神经网络模型都将用于预测模型,它们将被嵌入到各种软件中,加速已被证明是迈向未来的最好方法。近几(一/二/三)年,英伟达一直在奠定推理方面的基础。正如我们在 GPU 技术大会(GTC)中所描述的那样,推理是非常非常复杂的,其原因在于系统必须掌握训练框架形成的庞大网络的海量输出信息,并优化它。这极有可能是有史以来最复杂的计算图优化问题。」

在为人工智能工作量构建了多年的硬件和软件组合之后,黄仁勋在 SC18 上大谈云服务提供商及其他技术供应商如何继续拥抱人工智能技术、加速计算如何在日新月异的 HPC 领域(高性能计算机领域)继续成长。他还指出,V100 GPU 是橡树岭国家实验室超级计算机 Summit 的关键。Summit 是全球超级计算机 TOP500 的第一名,劳伦斯列弗莫国家实验室的 Sierra 排名第二。榜单中共有 127 台超级计算机使用了英伟达 GPU。

与谷歌云平台一样,服务器设计 OEM 厂商(如 Dell EMC、 联想、IBM 和 惠普)以及 57 家 ODM 厂商,都采用英伟达基于图灵架构的 T4 GPU。T4 的多精度能力是指其能够完成多层精度表现,从 FP32 浮点性能 8.1 TFLOPS 到 INT4 浮点性能 260 TOPS。T4 适用所有开放计算项目(Open Compute Project)中超大规模用户的服务器设计。在推理方面,企业可配备 2 台 T4 GPU 服务器,性能相当于 54 台单核 CPU 服务器。英伟达称,在训练方面,一台双 T4 服务器的性能相当于 9 台双通道单核 CPU 服务器的性能。

黄仁勋还表示,NGC 容器注册中心已经将框架和应用程序的数量从去年的 18 个增加到现在的 41 个,涉及深度学习 HPC 到 HPC 可视化的方方面面,包括 ParaView、Rapids、 MILC 及 Matlab 等新软件。

英伟达还提供新型多节点 HPC 及可视化容器,使超大规模用户能够在大规模集群上运行工作负载。上述软程序容器都支持多节点部署,使其通过多节点 GPU 的各节点轻松运行大规模计算工作负载,并尝试改善多服务器部署环境下的信息传递接口 (MPI) 容器化。

NGC 能在本地使用 Singularity 容器技术,新的「NGC 准备程序」将验证系统。初始系统包括思科的 UCS C480ML、Dell EMC 的 PowerEdge C4140, 惠普的 Apollo 6500, ATOS 的 BullSequana X1125 及超微的 SYS-40w9GP-TVRT。

「HPC 产业正在发生翻天覆地的变化。」黄仁勋说,HPC 的架构设计被用来测试物理规则及模拟爱因斯坦、麦斯威尔及牛顿公式,「推导知识、预测结果,且未来仍将继续。不过,我们掌握了一个新工具──机器学习机器学习有两种解决方法,其中一个需要特征工程的专家知识,另一个需要使用最底层神经网络自己推理学习关键特征。二者都有各自的局限性,也各有自己的应用,但都会取得非常大的成功。未来,高性能计算架构将从纵向扩展收益,但也将同时横向扩展。……未来,无论是高性能计算还是超计算,架构将开始双向扩展。」

他说,关键在于软件,对于英伟达来说,CUDA 是使其实现软件耦合及兼容的原因。

「加速计算与芯片无关。最终,人们首先想到的是软件、研究人员、开发人员,创建超越摩尔定律的全堆栈。加速计算事关加速堆栈。当你想加速堆栈且不具备耦合架构时,我不知道用户如何去使用。」

产业英伟达硬件芯片
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

推荐文章
暂无评论
暂无评论~