Facebook推出新一代服务器硬件系列

人们每天花费在 Facebook 视频上的时间超过 1 亿小时,每天在 Instagram 上发布数量超过的 9500 万图片和视频,每月有 4 亿人在 Messenger 上使用语音和视频交流,因此,我们需要不断革新服务器硬件组以扩展、提升 APP 的表现和我们的服务。


今天,在 2017 年 OCP 大会上,我们推出了一个端到端的服务器硬件组刷新器,其设计规范可通过开放计算项目的网站获取,而适用于所有系统的整个文档集也将很快发布。


Bryce Canyon 


自 Open Vault(Knox) 在 2013 年发行以来,Bryce Canyon 是我们自行设计的第一个主要存储机箱,这个新的存储平台主要用于包括图像和视频的高密度存储,并将提升效率和性能。


这个新的存储机箱支持 4 个开放式机架单元(OU)中的 72 个 HDD,其中每个 HDD 的密度要比 Open Vault 高出 20%。这种模型设计适用于多个配置,例如 JBOD 和强大的存储服务器。平台支持更强大的处理器和一个相比之前可以大到 4 倍的内存占用。通过使用更大更有效的 92 毫米风扇为前面 3 排 HDD 降温并同时排出机箱下方的空气以为后 3 排 HDD 提供凉爽空气,Bryce Canyon 提升了其散热和电源效率。这也可以与 Open Rack v2 标准相兼容。


通过把 Mono Lake 这个开放式计算单插槽服务器卡改为计算单元,一个 Bryce Canyon 存储服务器可以提供比基于 Open Vault 的 Honey Badger 存储服务器大 4 倍的计算能力。Bryce Canyon 还利用 OpenBMC 管理散热和电源,为 Facebook 数据中心的最新硬件选取通用管理框架。


image.png

Big Basin

Big Basin 是我们 Big Sur GPU 服务器的继承者,它是我们第一个广泛部署、极高性能的计算平台,该平台能帮助我们训练更大、更深的神经网络。我们先前在部署 Big Sur 到基础架构时获得了许多宝贵的经验,因此我们将这些可服务性、可靠性、性能和集群管理的改进经验纳入到 Big Basin 的开发中。


Big Basin 可以训练比以前大 30% 的模型,出现这样的改进是因为算数吞吐量(arithmetic throughput)更大了,内存大小也由 12GB 增加到了 16GB。在使用如 ResNet-50 那样的流行图片分类模型进行测试时,我们发现 Big Basin 在数据吞吐量上比 Big Sur 有将近 100% 的性能提升。这也意味着我们比以前能更快地进行模型实验和运行更复杂的模型。


Big Basin 设计的构架是 JBOG(一组 GPU 阵列),这种结构能允许 CPU 的计算量从 GPU 中完全分离(disaggregation)开来。因为它没有内置的计算和网络,所以其需要一个外部服务器的头节点(head node),这类似于 Open Vault JBOD 和 Lightning JBOF。通过这样设计,我们可以将 Open Compute 服务器作为独立的构建块与 Big Basin 单元相连接,并在新 CPU 和 GPU 发布时独立地扩展每个模块的功能。这种模块化设计使我们能够利用修订版的重时器卡(retimer card)和 Lightning 一起使用。该服务器还支持 8 个高性能 GPU(具体为八个 NVIDIA Tesla P100 GPU 加速器),它与 Open Rack v2 兼容,并占用 3 OU 的空间。


image (1).png

Tioga Pass


Tioga Pass 是 Leopard 的继承者,被用于 Facebook 的多种计算服务。Tioga Pass 有一个双插槽母板,它使用相同的 6.5」x20」形状因子,并支持单面和双面设计。有 DIMM 在 PCB 两个面上的双面设计允许我们最大化内存配置。Leopard 上的板载 mSATA 连接器已替换为 M.2 插槽,并支持 M.2 NVMe SSD。机箱也与 Open Rack v2 相兼容。


Tioga Pass 将 PCI 插槽从 x24 升级到 x32,允许两个 x16 插槽或一个 x16 插槽与两个 x8 插槽,这使得服务器作为 Big Basin JBOG 与 Lightning JBOF 的头节点更加灵活。在访问 GPU 或闪存时,可用的 PCI 带宽将增加一倍。添加 100G 网络接口控制器(NIC)还可以在用于 Lightning 的头节点时实现对闪存存储更高带宽的访问。在上年使用 Mono Lake 服务器推出 OpenBMC 之后,这也是 Facebook 的第一个使用 OpenBMC 的双 CPU 服务器。


image (2).png

Yosemite v2 和 Twin Lakes


Yosemite v2 是 Yosemite 的更新版,也是我们第一代采用 4 张 1S 服务器卡的多节点(multi-node)计算平台,其为高密度、横向扩展(scale-out)数据中心提供高灵活性和电源效率。尽管 Yosemite v2 采用了新的 4 OU vCubby 机箱构架设计,但它仍然与 Open Rack v2 兼容。每个 Cubby 支持四张 1S 服务器卡(server cards),或两张服务器加两张设备卡(device cards)。四个服务器都能连接到 50G 或 100G 多主机(multi-host)NIC。


与 Yosemite 不同,Yosemite v2 新电源设计支持热服务(hot service),当将底座拉出机箱维护组件时,服务器可以继续运行或操作,不需要关闭电源。而按照先前 Yosemite 的设计,在维修单个服务器时,为了防止该服务器访问其他三个服务器,四个服务器都需要关闭电源。


Yosemite v2 机箱支持 Mono Lake 以及下一代 Twin Lakes 1S 服务器。它还支持如 Glacier Point SSD 载体卡(carrier card)和 Crane Flat 设备载体卡那样的设备卡。这让我们能够添置增强闪存以及支持 PCIe 标准的附加卡。如同上一代 Yosemite,Yosemite v2 也支持 OpenBMC。

image (3).png

了解更多


随着基础设施规模不断扩大,我们必须保持创新。通过设计和构建自己的服务器,我们已经能够分解传统的计算组件,并将其重建为模块化的分解系统。这使我们能够在发现更好的技术时更换硬件或软件,并保有所需的灵活性和效率。我们也很高兴通过开放计算项目为行业带来这种灵活性和效率。


有关硬件设计的更多信息,包括初步规范,可参看开放计算项目网站。

入门Facebook硬件工程高性能计算工作站
暂无评论
暂无评论~