参与:路、Chita作者:Curtis G. Northcutt

7000美元,搭建4块2080Ti的深度学习工作站

如何以高性价比的方式搭建深度学习工作站?如何选择合适的部件?……这些问题有点难。来自 MIT 的 Curtis Northcutt 继「6200 美元搭建 3-GPU 工作站」之后,又推出了「7000 美元搭建 4-GPU 深度学习工作站」的教程。

在之前的博客中,来自 MIT 的 Curtis Northcutt 分享了构建专业质量的深度学习工作站和购买零件的所有细节,搭建该工作站共花费了 6200 美元,几乎是 Lambda 和 Bizon 等公司的一半(Lambda 同等工作站需要 12,500 美元)。该博客在 Reddit 上疯传,在接下来的几周里,Lambda 将其 4-GPU 的工作站价格降到了 12000 美元。

这对部署深度学习的人来说是个好事,但你如果觉得 12000 美元还是太贵了,可以看这里。Curtis Northcutt 只用了 7000 美元(约合 46953 人民币)配置了 4 块 2080Ti GPU 的深度学习工作站:

在之前的文章中,我说过:「没有完美的配置。」但如果能够以最低的价格实现最好的配置呢?会是怎样的呢?这就是我下面将要讲的。关于 4-GPU 深度学习工作站的部件说明、基准和其它选项,参见《仅需 6200 美元,高性价比构建 3 块 2080Ti 的强大工作站》。

本文将准确列出以最少的花费搭建当前最先进的 4-GPU 深度学习工作站时需要购买的部件。由于很多人对上一篇博客的反馈是选项太多,因此在本文中我只列出了每个部件的最佳选项。我搭建了三个多 GPU 工作站,本文展示的这个工作站是其中性能和可靠性最好的一个,没有出现过热保护,成本也最低。

我搭建两台这样的工作站花费了 14000 美元,每台 7000 美元。下面将介绍我购买的具体部件。

4-GPU 工作站前视图。

需要购买哪些部件?

我所有的部件都是通过 NeweggBusiness 在网上购买的,但其它供应商(比如亚马逊)也 OK。如果你附近有一家当地的 MicroCenter 商店,那你可以去那里买到更便宜的 CPU。如果不需要,就不要缴税(如非盈利组织或教育机构)。NeweggBusiness 和 Amazon 都接受免税文件。

以下是我购买的每个部件:

  • 4 块 RTX 2080 TI GPU(2000 美元以下运行最快的 GPU)

  • Gigabyte RTX 2080 Ti Turbo 11GB,1280 美元


  • 这两种 2-PCI 插槽的涡轮风扇式 RTX 2080 TI GPU 也可以:

  • 1. ASUS GeForce RTX 2080 Ti 11G Turbo Edition GD,1209 美元

  • 2. ZOTAC Gaming GeForce RTX 2080 Ti Blower 11GB,1299 美元


  • Rosewill Hercules 1600W PSU(最便宜的 1600 瓦电源)

  • Rosewill HERCULES 1600W Gold PSU,209 美元


  • 1TB m.2 SSD 固态硬盘(用于深度学习中的超快速数据加载)

  • HP EX920 M.2 1TB PCIe NVMe NAND SSD,150 美元


  • 20 线程 CPU(选择英特尔而不是 AMD,是因为前者的单线程速度更快)

  • 英特尔 Core i9-9820X Skylake X 10-Core 3.3Ghz,850 美元


  • X299 主板(这款主板完全支持 4 个 GPU)

  • ASUS WS X299 SAGE LGA 2066 英特尔 X299,492.26 美元


  • 机箱(大风量可帮助 GPU 散热)

  • 海盗船 Carbide 系列 Air 540 ATX Case,115 美元


  • 3TB 硬盘(用于存储不经常使用的数据和模型)

  • 希捷 BarraCuda ST3000DM008 3TB 7200 RPM,75 美元


  • 128GB 内存

  • 8 块海盗船 Vengeance 16GB DRAM,640 美元


  • CPU 散热器(不会阻塞机箱气流)

  • 海盗船 Hydro 系列 H100i PRO 低噪音版,130 美元

图左:价值 7000 美元的 4-GPU 深度学习工作站;图右:之前博客中介绍的用 6200 美元搭建的 3-GPU 工作站。

与 Lambda 4-GPU 工作站的对比

用 7000 美元搭建的这个 4-GPU 工作站类似于 Lambda 价值 11250 美元的 4-GPU 工作站。唯一的区别是 Lambda 使用 12 核 CPU 而非 10 核 CPU,Lambda 有一个价值 50 美元的热插拔驱动器托架。

操作系统及性能

我使用的操作系统是 Ubuntu Server 18.04 LTS,使用 CUDA 10.1 和 TensorFlow(用 conda 安装)、PyTorch(用 conda 安装)。一个多月来,我在完全利用 4 个 GPU 的情况下在这些机器上训练了多次,没有出现任何问题或者过热保护现象。

原文地址:http://l7.curtisnorthcutt.com/the-best-4-gpu-deep-learning-rig

工程GPU工作站硬件
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

暂无评论
暂无评论~