Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器学习算力基准MLPerf新一期榜单发布:Graphcore效率领先

现在训练一个 BERT 已经是论秒计了。

6 月 30 日,开放工程联盟 MLCommons 发布了机器学习训练性能基准 MLPerf Training v1.0 的最新结果。

在新一期基准测试中,研究人员统计了各类硬件设备在不同机器学习模型训练到标准质量目标所需的时间,包括图像分类、目标检测、NLP、推荐系统和强化学习。MLCommons 还添加了两个新的基准来评估语音到文本和 3D 医学成像任务的性能。

与上一轮结果相比,本期的最佳基准测试结果提升高达 2.1 倍,这显示出了硬件、软件和系统规模的大幅性能提升。

行业基准测试组织 MLPerf 于 2018 年 5 月由谷歌、百度、英特尔、AMD、哈佛和斯坦福大学共同发起,是机器学习领域芯片性能的重要参考标准。

在新的一期榜单中,训练 NLP 领域著名预训练模型 BERT 的时间已经被缩短到十几秒了:在谷歌的 TPU 上,训练这样一个模型只需要 17 秒,而用英伟达的服务器也只需 19 秒。

Graphcore 的服务器需要十几分钟才能训练完,但需要知道的是,Graphcore 系统仅由两块 AMD EPYC 处理器和 64 个 Graphcore IPU 芯片组成。谷歌的机器是由 3456 块 TPU 和 1728 个 AMD 的 EPYC 处理器组成。而英伟达的最佳结果在一个系统中使用了 4096 块最新的 A100 和 1024 个 AMD EPYC CPU。

除了多芯片服务器性能令人刮目相看以外,来自芯片公司 Graphcore 的产品也表现出了很高的效率。此次测试结果显示,在 Graphcore IPU-POD64 上,BERT 的训练时间只用 12 分钟,ResNet-50 的训练时间为 14.5 分钟,AI 性能已达超级计算机级别。

MLPerf 还对比了市面上的 Graphcore 系统与英伟达的最新产品,结果证实 Graphcore 在「每美元性能」(Performance-Per-Dollar)指标上更加优秀。对客户而言,这项重要的第三方测试确认了 Graphcore 系统不仅具有新一代 AI 的优异性能,同时在目前的广泛应用中也表现非常出色。

MLPerf 基准测试

对于第一次 MLPerf 1.0 版的提交,Graphcore 选择聚焦在关键图像分类和自然语言处理的应用基准测试类别。MLPerf 图像分类基准使用流行的 ResNet-50 版本 1.5 模型,在 ImageNet 数据集上训练, 以达到适用于所有提交情况的准确率。对于自然语言处理,使用了 BERT-Large 模型和选取的一个代表性片段。该片段大约占总训练计算工作负载的 10%,并使用维基百科数据集进行训练。

Graphcore 提交的成绩是 ResNet-50 和 BERT 图像分类和自然语言处理部分,这是目前流行的应用和模型方向。参与测试的两个 Graphcore 系统,IPU-POD16 和 IPU-POD64,均已量产交付客户。

  • 价格较低、结构紧凑的 5U IPU-POD16 系统适用于刚开始构建 IPU AI 计算能力的企业客户。它由 4 个 1U 的 IPU-M2000 和 1 个双 CPU 服务器(dual-CPU server)组成,可以提供 4 PetaFLOPS 的 AI 处理能力。
  • 纵向扩展的 IPU-POD64 包含 16 个 IPU-M2000 和数量灵活的服务器。Graphcore 系统实现了服务器和 AI 加速器的解耦,因此客户可以根据工作负载指定 CPU 与 IPU 的比率。例如,和自然语言处理相比,计算机视觉任务通常对服务器的需求更高。对于 MLPerf,IPU-POD64 在 BERT 的提交中使用了 1 台服务器,在 ResNet-50 的提交中使用了 4 台服务器。每台服务器均由 2 个 AMD EPYC CPU 驱动。

MLPerf 测试包含开放分区和封闭分区两个提交分区。封闭分区严格要求提交者使用完全相同的模型实施和优化器方法,包括定义超参数状态和训练时期。开放分区保证和封闭分区完全相同的模型准确性和质量,但支持更灵活的模型实践。因此,该分区支持更快的模型实现,更加适应不同的处理器功能和优化器方法。

对于像 Graphcore IPU 这样的特殊架构,开放分区更能体现出产品的优异性能,但 Graphcore 还是选择在开放和封闭分区都进行了提交。

测试结果体现了 Graphcore 系统的优异性能,即使在具有限制规格的开箱即用的封闭分区上也是如此。更令人瞩目的是开放分区结果,Graphcore 能够在其中优化部署,以充分利用 IPU 和系统功能。这更贴近真实应用,支持客户可以不断提升其系统性能。

「每美元性能」指标

MLPerf 的比较存在很多指标,评判校准复杂。从相对简单的硅片到有着昂贵存储的复杂堆栈式芯片,如今的处理器和系统架构差别巨大。如果以「每美元性能」的角度来看,往往最能够说明问题。

Graphcore 的 IPU-POD16 是一个 5U 的系统,标价 15 万美元。如前所述,它由 4 个 IPU-M2000 加速器以及行业标准主机服务器构成。每个 IPU-M2000 由 4 个 IPU 处理器构成。MLPerf 中使用的 NVIDIA DGX-A100 640GB 是一个 6U 机盒,标价约为 30 万美元,有 8 个 DGX A100 芯片。IPU-POD16 的价格是它的一半。在这个系统中,IPU-M2000 的价格和一个 DGX A100 80GB 的价格是一样的,或者在更细的层次上,一个 IPU 的价格是它的四分之一。

在 MLPerf 比较分析中,Graphcore 采用了严格监管的封闭分区的结果,并针对系统价格对其进行了归一化。对于 ResNet-50 和 BERT,很明显 Graphcore 系统提供了比 NVIDIA 产品更好的每美元性能。在 IPU-POD16 上进行 ResNet-50 训练的情况下,Graphcore 的每美元性能是 NVIDIA 的 1.6 倍。

在 BERT 上,Graphcore 的每美元性能是 NVIDIA 的 1.3 倍。Graphcore 系统的经济性可以更好地帮助客户实现其 AI 计算目标,同时,由于 IPU 专为 AI 构建的架构特点,Graphcore 系统还可以解锁下一代模型和技术。

Graphcore 软件主管 Matt Fyles 表示,「这对于希望使用人工智能的公司来说非常有意义。新结果非常具有代表性,我们将继续推进自身系统的发展,并继续提高其效率。」

Graphcore 高级副总裁兼中国区总经理卢涛表示:「首次提交 MLPerf 就获得如此出色的成绩,我们感到非常自豪。此次测试还会带给 Graphcore 客户更多价值,因为我们在准备阶段所做的所有改进和优化都会反馈到 Graphcore 软件栈中。全球范围内的 Graphcore 用户都会从 MLPerf 测试中受益匪浅,不仅局限于 BERT 和 ResNet-50 模型。我们将继续参与包括训练和推理在内的 MLPerf 测试,为追求更优性能、更大规模和添加更多模型,贡献 Graphcore 的所有智慧和力量。」

参考内容:

https://www.zdnet.com/article/graphcore-brings-new-competition-to-nvidia-in-latest-mlperf-ai-benchmarks/

产业BERTResNet基准GraphcoreMLPerf
相关数据
超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~