Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陈寅初作者

剑指未来,这条产品线揭示了 NVIDIA 的野心

按照 NVIDIA 老板的说法,在还没有公司名称的时候,所有文件都冠以两字词 NV 开头,含义是 Next Version(下一版),直到某天由于公司合并,其中一位公司创办合伙人翻查了和这个两字词相关的所有单词,最终选择了谐音“Envy”的拉丁文“invidia”(暗含视觉与羡慕的意思),于是 NVIDIA 这个名字也就被大家采纳。经过二十多年的发展,寂寂无闻的 NVIDIA 已经成为全球最受瞩目的芯片公司,旗下拥有 GeForce、Quadro、Tesla、Tegra 等多个产品线。

四个产品线的分工比较明确,GeForce 主要针对游戏消费市场、Quadro 针对专业图形和入门科学计算领域、Tesla 针对超算市场、Tegra 针对物联网。和相对烦嚣的 GeForce、Tesla 相比,Quadro 在普通人看来虽然有点“寂寞”,但是在 NVIDIA 的营收中却有极其重要的地位,其所属的专业可视化业务更是实现了连续 16 个季度的增长。

正如前面所说的那样,Quadro 是 NVIDIA 的专业图形产品品牌,在它诞生(1999 年)的一年时间内接连创下了多个第一:全球第一款集成硬件 T&L 专业卡、第一款移动工作站、第一个 Linux 专业工作站驱动。作为后来者,Quadro 凭借强大的产品力,很快就将当时工作站市场占统治地位的 3DLabs、FireGL 等品牌全部干趴下。

自推出后 Quadro 在专业应用市场上一直保持着领先的市场份额,随着功能和性能日益强大,基于 GPU 的专业应用也越来越受重视,Quadro 可以发挥的用武之地也越来越多。

特别是 NVIDIA 图灵架构发布后,不仅传统工作站应用因为光线追踪内核(RT Core)的加持而显著受益,而且在人工智能、大数据方面也因为张量内核(Tensor Core)而得到了更进一步的拓展,此外,图灵在多卡通信(NVLink)、视频加速也有重大提升,为专业应用提供了面向未来的支持。

让人值得关注的是,NVIDIA 这次打破常规,让 Quadro RTX 图灵架构产品线发布的第一个产品,足见这次 NVIDIA 对图灵架构专业产品给与了前所未有的重视。

硬件光追加速内核

图灵架构最重要的创新之处是首次集成了名为 RT Core 的光线追踪内核,光线追踪被业界认为是目前实现真实渲染的最强技术,它从观察者发射出一条射线,穿过屏幕像素抵达到渲染对象,生成反射、折射、阴影等衍生射线,结合对象材质、大气等特性,确定像素的最终颜色。

理论上,光线追踪可以完全模拟真实世界的光照(以及声音等)效果,但是现实世界有几乎无数的光子在物体之间碰撞,因此,在真正的光线追踪应用里,一般都会使用有限的主射线(穿越像素的射线)和衍生射线,结合一些随机算法实现在有限的计算资源下提供可接受的真实效果渲染。

在以往,光线追踪都是以软件方式来执行,也就是用 CPU 和 GPU 的通用计算单元来跑,由于光线追踪是复杂的计算密集型应用,软件方式难以实时的来呈现,所以一直以来,光线追踪基本上都是仅限于互动操作敏感度不是很高的输出渲染。

当然,实时光线追踪在这个时期也是存在的,只是速度让人很抓狂,画面效果也得妥协,毕竟要实现实时的话,允许的计算时间是有限的。在这种生态环境下,人们愿意投入的开发资源自然也不多,像 Keyshot 这类工业设计渲染器就一直只用 CPU 跑。

Quadro RTX 采用的图灵架构改变了这个局面,它引入的 RT Core 就是把光线追踪中最耗时的射线求交计算和三角形筛选处理,以硬件电路的方式集成到了 GPU 中,大大提高了光线追踪计算的能耗比,结合混合渲染算法,最终实现了效率远胜以往的实时光线追踪性能。

增强的张量内核

张量内核(Tensor Core)是 NVIDIA 在 Volta 架构专门针对人工智能引入的混合精度计算加速单元,透过 NVIDIA 的自动混合计算精度(AMP),可以在多种深度学习框架提供自动混合加速。Quadro RTX 的图灵架构同样集成了张量内核,而且做了进一步的扩展,增加了 4 位整数精度支持,可以对精度需求不高的场合提供更高的吞吐量。

我们以基于 TU102 GPU 的 Quadro RTX 8000 为例,它的单精度(32 位浮点)性能是 16.3 TFLOPS,但是 INT4(4 位整数)性能高达 522 TOPS,INT8(8 位整数)性能是 261 TOPS。

使用 Quadro RTX 作为深度学习或者计算密集型计算方案既可以确保灵活而强大的性能,同时在使用成本上也较其他方案更有优势,NVIDIA 的 NGC 容器镜像方案可以让用户几乎无须考虑平台部署的复杂性,只要平台安装好 CUDA 和 Docker ,再复制粘贴几条指令,就能快速部署各种主流深度学习框架容器镜像,快速编写、运行深度学习代码。

8K 视频编解码

图灵架构集成了升级过的 NVDEC 和 NVENC,支持对 HEVC 4:4:4 格式视频的解码以及 8K 30fps 格式视频的 HEVC 编码。HEVC 编码拥有比 H.264 高 30% 以上的同画质压缩率,对于视频会议、在线直播、视频剪辑以及工作站串流等操作,新的编解码引擎对于 Quadro RTX 用户来说意味着更高的效率和画质。

特别值得一提的是,图灵的 HEVC 编码器支持 B-Frame 压缩,B-Frame 是参考前后帧与本帧的差别进行编码的方式,比 P-Frame 的压缩率更高(I-Frame 效率最低),因此 Quadro RTX 的 HEVC 编码器在同样的码率可以做到更高的画质。

高达 48 GB 板载内存

Quadro RTX 全线采用 GDDR6 内存,其中 Quadro RTX 8000 内存带宽高达 672 GiB/s,内存容量高达 48 GiB,远超游戏卡版本 RTX 2080 Ti 的 11GiB,也比面向游戏发烧玩家的 Titan RTX 高一倍,即使和 NVIDIA 目前顶尖服务器加速卡 Telsa V100S PCIe 相比,也要多 50% 的容量。

不仅于此,图灵架构还具备名为 NVLINK 的通用输入输出接口,带宽高达 100GiB/s。在 PC 上可以用作多卡并联总线使用,此时 NVLINK 相当于一条扩展内存总线,两片 Quadro RTX 8000 可以快速共享彼此的内存,显著提高多卡性能。

GPU

内存容量

采用 NVLINK 后内存容量

光线投射性能

CUDA 内核规模

张量内核规模

Quadro RTX 8000

48 GiB

96 GiB

10 GRays/s

4608

576

Quadro RTX 6000

24 GiB

48 GiB

10 GRays/s

4608

576

Quadro RTX 5000

16 GiB

32 GiB

6 GRays/s

3072

384

Quadro RTX 4000

8 GiB

不具备 NVLINK

6 GRays/s

2304

288

多屏巨幕能力

Quadro RTX 另一个比较硬核的专业应用领域是多屏应用,例如现在舞台背景墙,很多时候都是采用了结合复杂三维、视频处理的应用,不仅要做到多屏同步,还需要具备强大实时处理能力和良好的第三方软件兼容性。

作为有多年丰富经验的多屏显卡供应商,Quadro RTX 在多屏处理能力也是相当强劲,支持 NVIDIA Quadro Sync II 同步卡,能以 4 块 Quadro RTX 6000 组合的方式提供 16 屏的强大同步输出能力,如果对性能有更高需求的话,还可以用 4 块 Quadro RTX 800 组成 32 屏输出,如此强悍的多屏解决方案实在难以找到对手。

最后的 CPU 渲染顽固派拥抱 Quadro RTX

图灵架构是在 2018 年 Siggraph 上发布的,作为一个拥有革命性的架构,尤其是集成的硬件光线追踪加速能力,当时支持的应用并不多。随着 Quadro RTX 等图灵架构产品的上市,这些疑问已经一扫而空,例如在专业可视化应用领域,包括像 Keyshot 这类以前顽固的 CPU 派渲染器都纷纷加入到了全力支持图灵架构的行列。

Luxion 的 Keyshot 是业界知名的独立专业级实时光线追踪和全局照明渲染器,以使用简单、效果逼真等特点受到了很多工业设计师的青睐。在很长一段时间里,Keyshot 都只支持 CPU 渲染模式,但是从9.0 版开始,Keyshot 开始引入了基于 NVIDIA OptiX 光线追踪渲染框架,实现了对 GPU 加速的支持。

在 Keyshot 的实际使用中,1920x1080 的视图(Viewport)模式下,使用纯 CPU (AMD Ryzen 3900X 3.8GHz 12 核、64GB DDR4-3600 内存)渲染一个场景(从视图开始更新到完成清晰平滑的画面),以往或者说 CPU 方式耗时大约是 90 秒,在启用 GPU 渲染时,使用 Quadro RTX 40000 渲染耗时只需要 3 秒左右,性能提升了接近 30 倍。

在渲染输出(Render)模式下,3840x2160 分辨率 128 取样,从开始到结束,同样配置,CPU 耗时 388 秒,而 GPU 渲染只需要 35 秒,性能提高了 10 倍。

毫不妥协的阿诺渲染器

相对于 Keyshot 偏向于可视化产品制造设计不同的是,Autodesk 公司的 Arnold(阿诺。没错,官方介绍名字就是源自那位胳膊比你大腿还粗的州长,以示自己是一个蛮力方案,这里的蛮力是指衍生射线的完全随机路径追踪方式)则是针对可视化艺术创作的三维渲染器。

Arnold 最初是由 Solid Angle 公司创办人 Marcos Fajardo 开发的,当时是为多伦多 CAST 软件公司光照设计软件 WYSIWYG 写的一段光照追踪代码,WYSIWYG 后来赢得了工程艾美奖。

到了 2004 年,索尼电影和 Arnold 展开合作,共同开发代码,将 Arnold 作为主要渲染器,合作成果就是 2006 年获得奥斯卡金像奖提名的动画电影《怪兽屋》( Monster House),这部电影是一部蛮力 Path Tracing 渲染的动画故事片,之后还有《天降美食》、《爱丽丝漫游仙境》等作品。

Autodesk 公司在 2016 年收购了 Solid Angle 公司,随后将 Arnold 追加到旗下的 Maya 和 3ds Max 三维设计软件中,而在最新的 Arnold 6 中,集成了来自 NVIDIA 的 OptiX 光线追踪渲染框架,支持图灵架构的 RT Core 硬件光线追踪加速,使得 Marcos 追求的蛮力光线追踪美学得到了强大的助力。

上图就是在 Autodesk Maya 采用 Arnold 渲染器分别以 Quadro RTX 和 CPU(双路 Xeon Gold 6126 2.4GHz)的性能对比,可以看到,采用了 Quadro RTX 6000 后,Arnold 的速度提高了接近 1.4 倍,结合多卡渲染的话,性能依然可以达到比较好的延伸比例,如果采用 8 片 Quadro RTX 8000 或者说 RTX Server 的话,甚至可以达到接近 17 倍的性能提升。

这意味着什么?这意味着如果要拿 CPU 来跑这个渲染可能需要 18 台服务器,相较之下,如果采用基于 NVIDIA Quadro RTX 的 RTX Server,一台就能搞定。

上图 NVIDIA 官网提供的 RTX 服务器供应商清单,对客户来说可供的选择还是比较多的。

使用 RTX 服务器来做渲染是有很大好处的,在单机作业的情况下,系统进行成品渲染的话,本机系统的所有资源都会调用来跑渲染处理,几乎不能再进行其他交互操作。

但是如果将渲染操作以队列的方式扔到网络中的 RTX 服务器的话,仅需将工作站处理的更新数据传输到服务器上(如上图),在服务器渲染的时候,工作站的互动操作完全不受渲染影响。

人工智能辅助好莱坞

Quadro RTX 在电子艺术创作方面的性能加速当然不仅限于三维渲染,由于图灵架构引入了 Tensor Core,使得 Quadro RTX 在一些视频特效处理上也大放异彩,例如奥斯卡提名电影《The Irishman(爱尔兰人)》和《Avengers: Endgame(复仇者联盟:终局之战)》都采用了人工智能加速实现减龄特效,成功将多位演员的银幕年龄减少了几十岁。

电影《爱尔兰人》剧照,多位演员均采用了 ILM 的人工智能减龄特效

《爱尔兰人》的剧情跨越了 60 年,化妆部门没法自然地再现三位主演 2、30 岁的模样,为了保持画面的可信性,电影没有选择多位不同年龄层的演员或者特效化妆技术来满足剧情需要,而是让演员 Robert DeNiro(76 岁,饰演角色二战老兵 Frank "The Irishman" Sheeran,电影以 Frank 回望人生讲述其黑手党杀手生涯来展开)、Al Pacino(79 岁)、Joe Pesci(76 岁)本色演出。

摄像师透过两台改装过的并行于主摄像机的 Arri mini 捕捉下人物的红外特征(这样就无需在面部贴标记点了,原理就和手机上的 3D 结构光类似),然后在使用 Quadro RTX 专业卡执行人工智能技术进行减龄处理,在满足了剧情需要的前提下实现了可信度和连贯性都非常高的画面和角色塑造。

ILM 公司采用了演员们过往数千张照片作为人工智能的学习对象,全流程使用 NVIDIA RTX 技术来加速这个操作,使得这部包含大量减龄处理的电影得以顺利完成。

电影《复仇者联盟之终局之战》 终极反角 Thanos 的剧照

而电影《复仇者联盟之终局之战》一片中包含了 2500 组特效镜头,号称史上最多特效镜头的电影,Digital Domain 的特效团队使用机器学习技术为大反派 Thanos 的演员 Josh Brolin 的表演构建了数字动画版。

Digital Domain 采用名为 Masquerade 的机器学习系统捕获演员表演和表情变化的低分辨率版本,然后转换成高分辨率 Thanos 面部,透过这个技术,显著降低了动画师的面部塑造工作量,缩短了后期制作时间。

Quadro RTX 实现全媒体全流程硬件加速

现在是快媒体为王的时代,文字内容影响力早就被图片、短视频取代,而图片、视频创作往往是密不可分的,一个内容创作团队使用的媒体创作工具五花八门,但是这些工具很可能都是由 Adobe 提供,例如照片冲图用到的 Lightroom、图片后期处理用到的 Photoshop、非线性视频编辑用到的 Premiere Pro、视频特效用到的 After Effect、生成三维纹理用到的 Substance 等等。NVIDIA 公司 Adobe 公司有紧密的合作关系,透过 Quadro RTX ,可以为上述软件提供全流程的硬件加速。

在超高分辨率视频处理上,Quadro RTX 可以提供比目前顶级工作站 CPU 快 14 倍的加速处理(凭借强大的通用处理性能和视频编解码能力),时间大大缩短。

这意味着什么?

要知道创作人员有时候需要面对一些经常需要修改的客户,如果修改几遍的话,使用 CPU 跑 n 遍超高清视频处理会让人发疯的,而有了 GPU 加速后,这样的问题起码可以轻松不少。

面对手机的日益流行,竖屏视频成为了在线短视频的主流,而拍摄的时候可能采用的是横构图,如果要转换成竖构图的话,为了确保拍摄主体适中位于画面,就需要重新构图,对于运动视频来说,如果使用人工处理是需要消耗大量精力的,而 Quadro RTX 结合 Premiere Pro 的 AI 重构图技术就可以实时的速度完成这个操作。

Quadro RTX 与全新的跨流程内容创作加速

全流程加速可以为内容创作提高生产率,不过 NVIDIA 除了在硬件方面提供加速外,还提供了一个名为 Omniverse 的开放式网络协作平台,可以简化实时图形工作室团队的流程。

例如,使用 Maya 和 Omniverse 门户的艺术家可以使用 UE4 和另一个艺术家合作,双方可以看到应用程序修改的实时更新。这个情况就好像你使用 Word 修改一个文档的时候,同事可以即时看到修改的内容,然后根据修改的内容对手头的文档进行及时的更新。

举个栗子:

上面是一个 NVIDIA Omniverse 的应用场景,右上方的是 Omniverse Viewer 的显示内容,下方是三个不同的设计师在分别使用 Maya(三维建模创作)、UE4(游戏场景开发)、Adobe Substance(三维纹理处理)进行飞机建模、三维场景设计、纹理贴图操作,三位设计师都使用了 Omniverse 平台来进行实时电子艺术资产数据通信。

右上方的 Omniverse Viewer 可以即时呈现 UE4 设计师所做场景的实时渲染图,三位设计师都能随时透过 Omniverse Viewer 来观看彼此协作的即时成果,这个工具对团队协作效率的提升是非常巨大的。

Omniverse Viewer 采用了 Quadro RTX 的 CUDA 内核、光线追踪内核、张量内核来实现逼真的实时渲染效果加速,世界各地的设计师、艺术家终于可以做到真正的合作无间了。

Quadro RTX 与大数据应用

大数据是最近几年比较热门的话题,所谓的大数据,一般是指无法用 Excel 这类办公数据表软件应对的海量数据,随着互联网的发展,信息的膨胀速度远远超出传统数据处理方式能应对的能力,如何快速对大数据进行挖掘、清洗、整理并转换成人类能明了、具有分析意义的图表成为当前蓬勃发展的新兴业务。

NVIDIA 在这方面提供了一个名为 RAPIDS 的解决方案,它将之前 NVIDIA 在 CUDA 开发方面的数学库以及专门针对大数据处理新开发的框架集合在一起,让开发人员可以使用 Python 语言调用 Quadro RTX GPU 实现海量数据的快速处理。

前身为 MapD 的 OmniSci 公司就使用了 RAPIDS 对海量的 WIFI 节点数据进行处理,透过调用 Quadro RTX ,实现了对 5 亿行数据的数据表的实时分析处理,最终形成一个仪表板式的动态数据图表,这个仪表里的地图可以实时缩放,然后地图中显示的热点分布状态也会即时更新。

一专多能的 Quadro RTX

Quadro 这个品牌最初是针对图形工作站的,主要是为了对工作站软件中的视口(viewport)提供更快的交互渲染,专业卡的专就是指在专业图形设计软件上提供 viewport 加速。

在 Cg 语言推出后,NVIDIA 在 2004 年做了个名为 Gelato 的商用 GPU 渲染器,这是 NVIDIA 首次尝试使用 GPU 进行通用计算的开始。Gelato 在某种程度上有很大的实验性意味,因为当时使用 GPU 来做成品渲染的渲染器少之又少,但是正是因为在 Gelato 的积累,使得 NVIDIA 获得了宝贵的 GPU 通用计算开发经验。

到了 2008 年 CUDA 发布后,NVIDIA 推出了基于 GPU 通用计算 OptiX 光线追踪渲染框架,经过 10 多年发展,OptiX 已经获得业界的广泛采用。从 Gelato 到 OptiX 再到后来遍地开花的第三方 GPU 渲染器,Quadro 系列作为硬件基石一直伴随左右,回过头来看的话,“未来已来”这句话其实非常适合于 Quadro 这个产品线。

Quadro RTX 作为图灵架构的第一款产品推出的推出,让人们首次实现了从 viewport 到最终帧渲染的全程加速,而 NVIDIA 一直奉行的图形先决、兼顾通用的渐进式发展策略也被证明是成功的。

一般来说,单纯是做图像识别的话,Tesla T4 就可以胜任了,但是需要指出的是,和 Tesla 不具备显示输出或者说 VDI 还没能实现远程 10 比特高精度显示输出的限制,Quadro RTX 由于本身设计为面向工作站,在显示输出方面有独特的优势,例如 CT 医疗影像往往需要高精度灰度显示输出能力,而 Quadro RTX 恰好可以满足这方面的诉求,做到一卡多用。

可以说,在大部分情况下,Quadro RTX 在大数据、人工智能应用方面一点也不逊色于专门针对服务器加速的 Tesla 等产品,Tesla 和 Quadro 在很多特性方面都是共有的,例如 GeForce 不具备的 GPUDirect RDMA 等,相对于主要用于服务器的 Tesla 来说,你可以把放在(台式或者移动)工作站里的 Quadro RTX 视作“身边的 Telsa”。

而 Quadro RTX 本身还有显示输出以及 USB-C VR 头盔连接能力,加上面向工作站的硬件加速特性,使得它具有一专(图形工作站)多能(大数据、人工智能等)的特殊定位。

最后值得一提的是,NVIDIA 今年 GTC 技术峰会由于受到疫情的影响,改为完全线上的方式运作,网络直播讲座和课程将透过 GTC Digital 提供,GTC Digital 是免费注册的。届时 GTC Digital 会将大量的技术讲座和课程在网上发布,对于希望了解图形、深度学习、大数据等业界最前沿发展动态的读者来说,是非常不错的年度盛宴。

产业Quadro RTX大数据技术人工智能NVIDIA
相关数据
推想科技机构
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

光线追踪技术

在计算机图形学中,光线跟踪是一种渲染技术,用于通过将光的路径跟踪为图像平面中的像素并模拟虚拟对象对光线的接收效果来生成图像。 该技术能够产生非常高的视觉真实感,通常高于典型扫描线渲染方法,但计算成本更高。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

结构光技术

结构光是将已知图案(通常是栅格或水平条)投射到场景上的过程。这些物体在撞击表面时变形的信息来在视觉系统中计算场景中物体的深度和表面信息,如在结构光3D扫描器中使用的。 结构光是一组由投影仪和摄像头组成的系统结构。用投影仪投射特定的光信息到物体表面后及背景后,由摄像头采集。根据物体造成的光信号的变化来计算物体的位置和深度等信息,进而复原整个三维空间。

暂无评论
暂无评论~