几周前在 ComputeX 上,英伟达 CEO 黄仁勋展示了 Spectrum-4 产品 —— 一个采用台积电 4N 制程打造的、集成上千亿晶体管的交换机 ASIC,它具有 51.2T 带宽,并提供 64 个 800Gb/s 端口或 128 个 400Gb/s 端口,同时展示了 Spectrum-4 交换机产品,并基于其特性发布了 Spectrum-X 以太网网络平台。
英伟达表示,Spectrum-X 是全球首款专为生成式 AI 而设计的以太网网络平台,可以通过一种新型拥塞控制提供无损 RoCE 传输。
「如何利用新的以太网向后兼容所有过去任务,同时将每个数据中心变成一个生成人工智能数据中心?」黄仁勋在演讲中说道。「这是我们第一次将高性能计算的能力带入以太网市场。」
InfiniBand 网络可以为 AI 任务提供最高的性能,但是仍有一些客户期望能在 Ethernet 网络上实现高性能,英伟达提出的新产品为他们带来了选择。
Spectrum-X 平台的核心是 Spectrum-4 交换机,BlueField-3 DPU,LinkX 线缆和光模块,以及 NVIDIA 端到端软件的完整解决方案,Spectrum-4 交换机被称为世界上第一个专为 AI 网络构建的 51.2Tb/s 以太网交换机,该交换机与英伟达自家的 BlueField-3 DPU (数据处理器)协调工作、由 DPU 在主机端对数据进行处理,交换机在数据转发平面进行动态路由和先进拥塞控制,并配合英伟达的光纤收发器,实现了高性能的以太网络性能。Spectrum-4 交换机可以支持 128 个 400G 以太网端口,或 64 个 800G 端口。
在生成式 AI 颠覆科技领域的现在,Spectrum-X 有望改变数据中心市场格局。
在英伟达看来,AI 云系统使用的以太网络可以分为两类,一种用于云控制和用户访问,通常被称为南北向网络。另一种是连接 GPU 和 CPU 的分布式计算结构,通常称为东西向网络。对于新需求来说,传统以太网用于东西向连接速度太慢,无法处理现代生成式人工智能的工作负载。
英伟达表示,Spectrum-X 平台是世界上第一个专为人工智能打造的以太网产品。NVIDIA Spectrum-4 以太网交换机和 BlueField-3 DPU,可为生成式 AI 云创建端到端高性能以太网基础设施,实现了无损 RoCE 网络的动态路由,当我们扩展 GPU 连接时,它可以转化为比传统以太网高出 60% 的网络性能。
Spectrum-X 拥有独特的网络架构,其主要特点体现在四个方面:无损 RoCE 网络,动态路由,先进流量控制及性能隔离。
无损网络依赖于在 BlueField-3 DPU 和 Spectrum-4 交换机上的基于优先级的流量控制(PFC)机制和先进的端到端拥塞控制技术,可以保证不会出现丢包的情况。BlueField-3 DPU 将数据发送到交换网络,在 Spectrum-4 交换机上进行动态路由,将数据分发到所有的可用路线,逐包进行最佳可用路径选择,充分利用了交换机之间的所有链路,实现最优的网络利用率。而在接收端,BlueField-3 DPU 会进行到达的数据进行乱序重组,应用最终收到有序的数据。
传统的以太网架构中,数据通过等价路径 ECMP 的方式对于数据流进行负载均衡,若出现拥塞将无法对于数据流内的 Packet 进行动态路径优化。在 Spectrum-X 平台上,数据流(Message)的 Packet 在传输过程中可以被动态改变路径,选择最优的路径进行发送,接收时通过 BlueField-3 DPU 再次变为有序,这就实现了基于无损网络 RoCE 动态路由的模式。
我们可以从性能的对比来看关闭 / 打开动态路由的有效带宽的差异,Spectrum-X 无损网络端到端的动态路由可以提升 1.6 倍左右的有效带宽,让每条链路都可以得到充分利用。
充分利用带宽之后,英伟达也实现了更好的流量控制。在云服务中我们会面临多个不同负载,如果是传统的、没有很好拥塞控制机制的网络,会在多对一通信发生时在交换机上出现拥塞。而在 Spectrum-X 端到端平台上,BlueField-3 DPU 探测 Spectrum-4 上的 Telemetry 信息,提前调整数据的发送速率,让所有数据正常地在不拥堵的情况下到达接收方。
在云上同时运行不同的工作负载往往会影响彼此的性能,Spectrum-X 通过先进的拥塞控制技术和遥测技术实时监测拥塞点,实现了不同工作负载之间的性能隔离。相比传统以太网,打开性能隔离的 NCCL-ALLREDUCE 带宽提升达到了 2.5 倍,140G/s 的有效带宽提升到了 378G/s,接近于 400Gb/s 网络线速。
综合多种性能提升,英伟达预测在万卡环境下的 LLM 训练任务中,Spectrum-X 可以比传统以太网提升 1.7 倍性能。
未来的大规模数据中心将会走向两种形式,一种形式是黄仁勋所说的「AI 工厂」,这些设施耗资数亿美元配备最强大的 GPU 和网络用于 AI 训练,使用 NVLink 和 InfiniBand 网络进行 GPU 之间的互连,这种场景是面向超大规模的 AI 重型工作负载,通常只运行一个或者很少量的作业。
另一种类型的数据中心设施是 AI 云,它要面向多租户,同时需要支持多个 AI 工作负载,它专注于向 AI 消费者提供中小规模训练服务和 AI 推理服务,以太网在这里可以提供更好的灵活性,但是性能缺陷成为了难题, Spectrum-X 的出现解决了以太网上的性能问题,使 AI 云服务成为了可能。如果这些服务商需要追求最高的性能,InfiniBand 网络还是最佳的选择。
目前,已经有很多科技大厂正在引入包含 Spectrum-X 网络平台,但由于测试还在初始阶段,我们仍无法得知对于 GPT-3/4 量级的大模型来说,提升网络效率对模型速度带来的提升。
英伟达也在构建自己的「验证设备」,它正在其以色列公司建造一台名为 Israel-1 的超级计算机,专为生成式 AI 设计,其包含 256 台 基于 NVIDIA HGX 的服务器共计 2048 块 GPU,以及 2560 个 BlueField-3 DPU 和 80 多台 Spectrum-4 以太网交换机。