李泽南原创

英伟达:比起股价,我们更关注计算的未来

英伟达 GTC 中国大会这次搬到了苏州。最近,人们关注的除了最新 GPU 产品之外,更多的是这家公司未来的发展方向。

今年的 GTC 系列大会已是第十届,也是连续第三次进入国内,和每次一样,英伟达首席执行官黄仁勋参加了本次大会,并在首日上午进行了主 Keynote 演讲。

谈到深度学习机器,我们首先想到的就是以 GPU 为核心的计算机。不过,英伟达早已不满足于芯片,近几年开始了垂直方向的扩展,我们可以在很多地方看到英伟达的软件、服务器,甚至自动驾驶汽车。但一直以来就像在游戏和高性能计算中所做的那样,这家公司一直致力于为客户提供更多选择。

「如有需要,你可以自行采用英伟达产品的任何一部分。」

重新定义图形计算

「我们今天首先要介绍的是,英伟达如何重新定义了图形计算。」黄仁勋以最新的 RTX 技术开始了自己的演讲。最近英伟达发布了新一代消费级显卡 RTX 20 系列。使用 Tensor Core、RT Core 和可编程着色器的架构,Turing 架构的 2080 Ti 峰值算力要比 Pascal 架构的最强芯片 Titan Xp 强 9 倍。

因为拥有算力达到 104TFLOPS 的 Tensor Core,通过实时的计算,RTX2080 可以通过输入低分辨率图像,输出高清图像。黄仁勋在会上展示了国产游戏《逆水寒》最新版本的图像水平。其模型和光源在水面和光滑物体上的反射栩栩如生。「即使是雨点落在水面上产生了波纹,效果也是和真实情况下一样」黄仁勋表示。「所有效果都是即时演算得出的,而对于开发者来说,需要额外做的工作也很少。」

在 Turing GPU 上,英伟达加入了全新的深度学习超级采样(DLSS)技术。基于 Turing 架构的 DLSS 由两个模型组成,其中一个模型经过训练后可根据原始图像生成超高画质图像,另一个经过训练后可实现超分辨率并以此作为输出。经由 Tensor Core 的计算,RTX 系列显卡可以同时实现高画质和高分辨率。

当然,这些算法看起来只对拥有 Tensor Core 和 RTX Core 的新产品有优化,和上一代产品相比,RTX 显卡在光线追踪和 DLSS 上的性能达到了 3.5 倍的提升。

AI 自动化的世界

英伟达 12 年前推出编程计算平台 CUDA 的时候,其应用范围仅限于高性能计算。随着 GPU 被广泛用于深度学习,这家公司已在在 CUDA 上加入了很多新的功能,比如适用于 Tensor Core 的相关 API。

AI 改变了英伟达的芯片、软件设计,也重塑了市场:2005 年的云服务器的算力输出基本全靠 CPU,而今天全球最强的两台超级计算机 Summit 和 Sierra 中,95% 的算力是由英伟达 GPU 提供的,其中在第一名 Summit 中有 27,648 块 Tesla V100。而在全球能效最强的 25 台超算中,有 22 台包含英伟达的芯片和技术。

与生活密切相关的网上购物、医疗、交通等方面都离不开 AI 应用。今年的双 11,阿里巴巴的销售量达到了 310 亿美元,其中基于大数据的智能推荐功不可没。

黄仁勋认为,AI 让高性能计算领域产生了变革,今天人们有两种扩大服务器算力的方式:第一种是传统 HPC 模式,在单个服务器上增加算力;另一种是 Hyperscale,通过扩大小模组的数量增加算力,超大规模节点必须作为一个计算集群,训练模型或分别为运行 AI 模型的数百万并发用户提供服务。

英伟达 GPU 在两种方向上都有自己的产品。HPC 模式对应的是「世界上最大的 AI 计算机」HGX-2 平台,其中一个模组可以支持 8 个 V100 GPU,实现 1PFLOPS 的算力。

HGX-2 的板卡很沉,习惯手举 GPU 摆造型的黄仁勋拿起来有点费劲,不禁自嘲:「I'm getting old.」

目前已经在制造 HGX-2 服务器的国内公司包括,华为、浪潮、联想、QCT、曙光和 Supermicro。很多公司为了构建云服务器购买了 HGX-2 平台,而百度和腾讯还将要开放基于 HGX-2 的云计算服务。

在 Hyperscale 的一边,英伟达为大规模计算集群准备了「第一块 Hyperscale GPU」Tesla T4 计算卡,以应对低延迟任务的需求。

30 天前,英伟达发布了 Tesla T4 云计算 GPU。这款计算卡包含 320 个 Turing 架构的 Tensor Core、2560 个 CUDA 核心,可输出 64TFLOPS 的 fp16 算力,而功耗仅为 70W。「它的功耗比 CPU 还要小,算力却比 CPU 要高 400 倍,」黄仁勋表示。

英伟达称,仅仅一个月的时间里,各大服务商已经推出了 50 种该型号的计算卡。在国内,科大讯飞等公司已宣布开始使用这种 GPU。

配合新一代的推理优化工具 TensorRT 5.0,T4 支持 Tesnor Core 和丰富的模型类型,CNN、RNN、MLP 和很多其他模型。

机器学习软件

今天的深度学习软件正变得原来越复杂,对于开发者来说最重要问题的是如何进行部署。

英伟达的新版 TensorRT 推理服务器现在是容器化的,可以在 Kubernetes 上运行。在大会上,英伟达宣布 TensorRT Inference Server 已经开源,黄仁勋拿百度云上的 Tesla T4 GPU 为这一工具做了例子:在容器中,我们可以运行任何深度学习模型,并让不同模型同时运行在同一个计算卡上以提高效率。

英伟达近日在 GTC 欧洲大会上发布了 RAPID,可让端到端工作负载加速 50 倍。「很多时候人们谈到 GPU 时都在说深度学习,现在有了 RAPID 软件,我们更可以加速机器学习。」黄仁勋表示。

RAPID 是一个开源机器学习库,其中 CUDA 负责加速数据科学工作负载,另外几个组件的功能则使用了很直白的形容方式:cuDF「类似于 Pandas」,而 cuML「类似于 ScikitLearn」。

机器学习意味着英伟达的产品正在进入更多行业,在国内,RAPID 已被一些传统公司采用。华大基因、中国移动和平安科技已经在使用 RAPID 了。

「如果我们用常规架构的计算方式,可能要花 6 个月来预测流感,」黄仁勋说道,「等计算机『预测』出来,流感早就结束了。有了 RAPID,计算机处理速度提高了 50 倍,问题很快就解决了。」

2005 年,各家研究机构用在科学计算上的花费有 90 亿美元,今天如果把百度、腾讯、阿里等公司的高性能计算花费加在一起,市场可以达到 370 亿美元,这其中很大一部分是深度学习机器学习的计算。英伟达的产品已经能够覆盖所有这些计算需求了。

开放系统

英伟达花费 20 亿美元研发的 Xaiver 是一块集中程度很高的芯片,它被黄仁勋称为目前全球效率最高、最复杂的处理器,其上集中了 90 亿个晶体管,集成了英伟达自动驾驶汽车的所有最新技术。在 Xavier 中有 5 种不同的处理器:CPU、GPU、图像处理器、深度学习加速器、信号处理器。在英伟达的眼里,这款芯片被设计用于「自主机器」,包括自动驾驶、机器人和各种智能设备,它最多可以输出 320TOPS TFLOPS FP32 算力。

英伟达将 Xavier 芯片和其他一些自动化相关业务归类在新品牌 Nvidia AGX 中。

在芯片之上,AGX 平台还包括 Clara 智能成像仪、Metropolis 视频流分析应用程序、Isaac 机器人技术,以及 DRIVE 自动驾驶汽车平台。在这些平台中,每个加速堆栈都由三层组成:

  1. 内核操作系统和工程 API

  2. 算法和加速库

  3. 特定领域算法或应用

英伟达称,每个平台都是开放的,开发者和客户可以访问任何层,并选择使用每个层的所有部分。

平台的构建速度如何?黄仁勋在大会上公布了应用 Xavier 的首批国内厂商,京东、美团、菜鸟的无人递送车已经选用了 Jetson AGX Xavier,它们中的一些正在展开测试:「在国内,每天都有百万骑手负责递送 3000 万份外卖,想象一下如果他们都被无人车代替以后,效率会提高多少倍!」

英伟达同时宣布面向自动驾驶的 NVIDIA DRIVE 开发系统已经上市,其中包括用于监控驾驶员的 DRIVE IX,以及 DRIVE AGX Xavier 开发套件。这一软件堆栈支持完全自动驾驶所需的功能,从感知到定位,再到路径规划

英伟达还在现场展示了在美国加州高速公路上 50 英里环线的 Level2 级自动驾驶。面对此前「Level 4 很难实现」的呼声,这家公司的高官们有着特别的看法。「对于消费者来说,他们不需要了解什么是 Level 几,」英伟达副总裁 Rob Csongor 表示。「他们只会选择当前最好的自动驾驶体验。虽然在 Level 2 中人还需要随时接管,Level 4 则意味着人可以在后座睡觉了。」

英伟达发现 level 2 和 level 4 的自动驾驶在功能上是完全一样的,使用的软件堆栈也是类似的。在美国目前卖得最好的车款 Tesla Model 3 上,我们可以找到自动驾驶功能,但我们仍然需要在驾驶时把手放在方向盘上。「这是一个有关认证的问题,英伟达在自动驾驶上的战略,你现在可以把它视为是面向 Level 2 的,但以后它可能会被认证为 Level 4。」Csongor 称。

英伟达在大会上宣布了与沃尔沃的合作:几个月后,拥有 Level2 自动驾驶的新款沃尔沃 XC60 就会上线。除此之外,已有超过 370 家公司在自动驾驶系统中使用了 DRIVE 平台。

在 GTC 中国之前,英伟达最大的新闻就是 11 月 16 号刚刚公布的今年第三季度财报了。报告显示,英伟达第三季度营收为 31.81 亿美元,与上年同期 26.36 亿美元的数字相比增长了 21%;公司净利润为 12.30 亿美元,与上年同期的 8.38 亿美元相比增幅达到 47%。尽管如此,市场普遍认为此数字低于预期,其股市也经历了大幅震荡。

「股价的确很重要,(最近的下跌)一部分是由于加密货币的影响,一部分是因为经济大环境。但是这并不是我们所关注的全部。」英伟达全球副总裁 Jay Puri 在大会上表示。「英伟达的眼光放在未来的计算。我们关注游戏、高性能计算、机器学习自动驾驶等等。」

面对有关股价的担忧,英伟达给出的回应是:我们还有更重要的事去做。就像黄仁勋所说的,「如果大家都在做同一件事,英伟达就不会占据优势,我们会去挑战最困难的问题。」这也是英伟达一直以来的生存之道。

产业AI机器学习英伟达GTC 大会
1
相关数据
科大讯飞机构

科大讯飞股份有限公司(SZ.002230)成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。

http://www.iflytek.com/
平安科技机构

平安科技负责开发并运营集团的关键平台和服务,支持集团的保险、银行、投资和互联网业务高效发展,同时还是集团的技术孵化器,在云、人工智能和大数据方面有着强劲的研究和开发能力。平安科技通过“科技+互联网+金融”模式,在技术研究和储备方面,拥有超过18项新技术及全球研究和开发AI内部的能力,包括微表情、图像和语音识别及语义理解。

http://www.cstia.org.cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线被称为路径,构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用,如机器人的自主无碰行动;无人机的避障突防飞行等。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

推荐文章
暂无评论
暂无评论~