长期以来,市场上的 AI 性能对比一直比较粗略,鱼龙混杂且通用性不足,难以作为参考,但 AI 基准之战即将开始。今天,来自学界和业界的多个组织(包括谷歌、百度、英特尔、AMD、哈佛和斯坦福)共同发布了新型基准 MLPerf,「用于衡量机器学习软硬件的速度」。
上周,RiseML 发布博客,对比了谷歌的 TPUv2 和 Nvidia V100。今天,英特尔发布博客,展示了使用 RNN 执行机器翻译时选择软硬件的相关数据。
很长时间以来,围绕对有意义的 AI 基准出现大量讨论,支持者认为此类工具的缺乏限制了 AI 的应用。MLPerf 发布公告引用了 AI 领域先驱吴恩达的话:「AI 正在改变多个行业,但是要想完全发挥其潜力,我们仍然需要更快的硬件和软件。」我们希望更好、更标准化的基准能够帮助 AI 技术开发者创造出此类产品,允许采用者做出明智的 AI 技术选择。
MLPerf 称其主要目标是:
通过公平、有用的度量来加速 ML 的进展;
推动互相竞争的系统之间的公平对比,同时鼓励创新,以提升 ML 领域的当前最优水平;
使基准测试可负担,所有人都可以参与其中;
服务商业和研究社区;
强制要求复现性,以确保结果的可靠性。
AI 性能对比(h/w 和 s/w)目前主要由既得利益者发布,如英特尔近日的博客《Amazing Inference Performance with Intel Xeon Scalable Processors》。这并不是在针对英特尔。此类对比通常包含有用的见解,但是它们通常用于展示一方比另一方的优势。标准化基准可以缓解这一状况。
MLPerf 在模拟之前的一些尝试,比如 SPEC(标准性能评估组织)。「SPEC 基准加速了通用计算方面的进步。SPEC 于 1988 年由多个计算公司联合成立。接下来的 15 年中 CPU 性能提升 1.6X/年。MLPerf 将之前基准的最佳实践结合起来:SPEC 使用的一套程序;SORT 的一个部门来做性能对比,另一个部门负责创新;DeepBench 覆盖产品中的软件部署;DAWNBench 的 time-to-accuracy 度量。」MLPerf 称。
Intersect360 Research 的 CEO Addison Snell 称:「现在那么多公司在发展 AI,提供基准测试的尝试具备极高的重要性,尤其是对于大量互相竞争的技术。但是,AI 领域非常多样化,我怀疑是否会出现主导的单一基准。想想五年前所有围绕大数据和分析学的热情;尽管每个人都尝试定义它,行业并没有提供一个统一、常用的基准。我认为 AI 领域也会是这种情况。」
Hyperion Research 的高级研究副总裁 Steve Conway 称 MLPerf 是「很好、很有用的」一步,「因为多年来对于买方和卖方来说确实缺乏一个基准来展现不同 AI 产品和解决方案之间的区别。这个基准似乎是为了解决如今 AI 早期主要的受限问题(bounded problem)而创建的。之后随着 AI 开始出现未受限问题(unbounded problem,它们将是经济上最重要的问题),我们将需要额外的基准。受限问题相对简单,例如声音和图像识别或玩游戏等。未受限问题例如诊断癌症,其对应的受限问题可能是读取 MRI 图像;未受限问题能够在非常复杂的问题上推荐决策。」
MLPref 已经在 GitHub 上开源,但仍然处于非常早期的阶段,正如 MLPref 所强调的:「这次发布的更像是一个内部测试版,它仍可以从多个方面改进。该基准仍然在开发和精炼中,可以查看下方的 Suggestions 部分了解如何贡献该开源项目。我们期待在五月末能基于用户输入进行大幅更新。」
目前在 MLPerf 套装中的 7 个基准,每一个都有参考实现:
图像分类—ResNet-50 v1(ImageNet)
目标检测—Mask R-CNN(COCO)
语音识别—DeepSpeech2(Librispeech)
翻译—Transformer(WMT English—German)
推荐—Neural Collaborative Filtering(MovieLens 20 Million (ml-20m))
情感分析—Seq-CNN(IMDB 数据集)
强化学习—Mini-go(预测 pro 游戏中的移动)
每个参考实现提供了:至少在一个框架中实现模型的代码;可用于在一个容器内运行基准的 Dockerfile;下载合适数据集的脚本;运行模型训练和计时的脚本;数据集、模型和机器设置的相关文档。
这些基准已经在以下的机器配置上进行了测试:
16 块 CPU、一块 Nvidia P100;
Ubuntu 16.04,包含 docker 和 Nvidia 支持;
600GB 硬盘(虽然很多基准不需要这么多硬盘空间)。
业界选择结合几个 AI 基准还是让基准数量激增是很有趣的现象。在这样一个年轻的市场,大部分人选择提供基准测试工具和服务。例如,斯坦福(MLPerf 成员)近日发布了它的第一个 DAWNBench v1 Deep Learning 结果。
斯坦福报告称:「2018 年 4 月 20 日,我们发布了第一个衡量端到端性能的深度学习基准和竞赛,这些性能包括:在常见深度学习任务中达到当前最优准确率级别所需的时间/成本,以及在当前最优准确率级别上执行推断的延迟/成本。聚焦于端到端性能提供了标准化计算框架、硬件、优化算法、超参数设置和其它重要因素的区别的客观手段。」像 MLPerf 这样的项目可以在当前对比 AI 性能的时候,清除那些模糊不清的因素。