李泽南 李亚洲编译

首个Titan RTX深度学习评测结果出炉:2019年你该选择哪款GPU?

英伟达的新一代 GPU 旗舰 Titan RTX 用来跑深度学习速度如何?近日,AI 硬件供应商 Lambda Labs 对 Titan RTX,以及 RTX 2080 Ti 等常见 GPU 在各种深度学习训练任务上的训练速度进行了测试。

结果喜人,由于新一代的英伟达 GPU 使用了 12 纳米制程的图灵架构和 Tensor Core,在深度学习图像识别的训练上至少能比同级上代产品提升 30% 的性能,如果是半精度训练的话最多能到两倍。看起来,如果用来做深度学习训练的话,目前性价比最高的是 RTX 2080Ti 显卡(除非你必须要 11G 以上的显存)。

Lambda 借助 TensorFlow 对以下 GPU 进行了测试:

  • Titan RTX

  • RTX 2080 Ti

  • Tesla V100 (32 GB)

  • GTX 1080 Ti

  • Titan Xp

  • Titan V

注意,作者只对单 GPU 对常见神经网络的训练速度进行了测试。

结果总结

我们测试了在训练神经网络 ResNet50、ResNet152、Inception3、Inception4、VGG16、AlexNet 和 SSD 时,以下每个 GPU 每秒处理的图像数量。

在 FP 32 单精度训练上,Titan RTX 平均:

  • 比 RTX 2080Ti 快 8%;

  • 比 GTX 1080Ti 快 46.8%;

  • 比 Titan Xp 快 31.4%;

  • 比 Titan V 快 4%;

  • 比 Tesla V100(32 GB)慢 13.7%。

在 FP 16 半精度训练上,Titan RTX 平均:

  • 比 RTX 2080 Ti 快 21.4%;

  • 比 GTX 1080 Ti 快 209.7%;

  • 比 Titan Xp 快 192.1%;

  • 比 Titan V 慢 1.6%;t

  • 和 v100(32 GB)的对比还有待调整。

结论:2019 年最合适深度学习/机器学习的 GPU 是?

如果 11 GB 的 GPU 内存足够满足你的训练需求(能满足大部分人),RTX 2080 Ti 是最适合做机器学习/深度学习的 GPU。因为相比于 Titan RTX、Tesla V100、Titan V、GTX 1080 Ti 和 Titan Xp,2080Ti 有最高的性价比。

如果 11GB 的 GPU 内存满足不了你的训练需求,Titan RTX 是最适合做机器学习/深度学习的 GPU。但是,在下结论之前,试试在半精度(16 bit) 上的训练速度。损失一定的训练准确率,能有效地把 GPU 内存翻倍。如果在 FP16 半精度和 11GB 上的训练还是不够,那就选择 Titan RTX,否则就选择 RTX 2080 Ti。在半精度上,Titan RTX 能提供 48GB 的 GPU 内存。

如果不在乎价钱且需要用到 GPU 的所有内存,或者如果产品开发时间对你很重要,Tesla V100 是最适合做机器学习/深度学习的 GPU。

方法

  • 所有模型都是在一个综合数据集上训练的,从而把 GPU 的表现与 CPU 预处理的表现隔离开,且降低伪 I/O 瓶颈的影响。

  • 作者对每个 GPU/模型对进行了 10 组训练实验,然后取平均值。

  • 每个 GPU 的「归一化训练表现」均为在特定模型上每秒处理图像数量的表现与 1080Ti 在同样模型上每秒处理图像数量表现的比值。

  • Titan RTX、2080Ti、Titan V 和 V100 基准测试用到了 Tensor Cores。

硬件平台

测试中采用的硬件平台为 Lambda Dual 双 Titan RTX 桌面平台,包含英特尔 Core i9-7920X 处理器,64G 内存,看起来已经是最强台式电脑配置了。在测试时,Lambda 仅更换 GPU 配置。

Batch-sizes

系统软件环境

  • Ubuntu 18.04

  • TensorFlow: v1.11.0

  • CUDA: 10.0.130

  • cuDNN: 7.4.1

  • NVIDIA Driver: 415.25

初始结果

下表显示了在 FP32 模式(单精度)和 FP16 模式(半精度)下训练时每个 GPU 的初始性能。注意,数字表示的是每秒处理的图片数量,对数量进行了四舍五入。

FP32 - 每秒钟处理的图像数量

FP16 - 每秒钟处理的图像数量

自己运行基准测试

目前,Lambda Lab 的 GitHub 库中已经提供了所有基准测试的代码,你可以测试自己的机器了。

第一步:克隆基准测试的 Repo

git clone https://github.com/lambdal/lambda-tensorflow-benchmark.git --recursive

第二步:运行基准测试

输入正确的 gpu_index (default 0) 和 num_iterations (default 10)

cd lambda-tensorflow-benchmark
./benchmark.sh gpu_index num_iterations

第三步:报告结果

  • 选择<cpu>-<gpu>.logs(generated by benchmark.sh) 目录;

  • 使用同样的 num_iterations 进行跑分和记录。 

./report.sh <cpu>-<gpu>.logs num_iterations

原文链接:https://lambdalabs.com/blog/titan-rtx-tensorflow-benchmarks/

产业GPU深度学习Titan RTX英伟达
4
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章
暂无评论
暂无评论~