英特尔发文Caffe2在CPU上的性能检测:将实现最优的推理性能

Caffe2 作为 Caffe 重构出的深度学习框架,一经发布便引起了业内极大的关注。机器之心也对 Caffe2 进行了跟踪报道。昨日,英伟达的一篇技术博客让我们了解 Caffe2 结合 GPU 带来的性能提升。这篇文章对 Caffe2 在 CPU 的支持下带来的性能改进进行了介绍,希望能为大家应用该框架提供帮助。

每一天,在世界的各个角落都在产生越来越多的信息——文本、图片、视频等等。为了能让人们更好地理解这些信息,近几年,人工智能和深度学习已经参与进来,改进了部分一流的语音识别、图片/视频识别以及搜索推荐的应用。


大多数深度学习工作负载同时包含训练和推理。其中,训练通常需要几个小时或几天才能完成,而推理通常需要几毫秒或几秒,并且通常是更大流程的一个步骤。虽然推理的计算强度远低于训练,但推理经常涉及更大的数据集。因此,与推理所需的计算资源总量相比,训练所需的计算资源总量相形见绌。值得指出的是,绝大多数推理工作负载都运行在英特尔至强(Xeon)处理器上。


为了针对各种训练和推理应用进行优化,去年,英特尔在几个深度学习框架上都迅速增加了 CPU 的支持。这些优化最核心的一项是英特尔数学核心函数库(英特尔 MKL),它使用英特尔高级矢量扩展 CPU 指令集(例如英特尔 AVX-512),更好地支持深度学习应用。


说到 Caffe2,它实际上是 Facebook 开发的一个开源深度学习框架,其在开发时就充分考虑到了表达、速度和模块化。Caffe2 旨在帮助研究人员训练大型机器学习模型,并在移动设备上提供人工智能。如今,开发者可以用许多相同的工具,让它们运行大规模分布式训练场景,并为移动设备开发机器学习应用。


英特尔和 Facebook 正在进行合作,把英特尔 MKL 函数集成与 Caffe2 结合,以在 CPU 上实现最优的推理性能。表 1 显示了在 AlexNet 上采用了英特尔 MKL 函数库和 Eigen BLAS 函数库进行压缩的推理性能。在这个表中,OMP_NUM_THREADS 表示这些工作负载中使用的物理核心数量(详情见表格说明)。这些结果显示,Caffe2 在 CPU 上进行了高度优化,并提供有竞争力的性能。对于小型批处理推理工作负载,建议在每个 CPU 核心上运行一个工作负载,并并行运行多个工作负载,每个核心一个工作负载。


640.png

表 1:Caffe2 上采用了 AlexNet 拓扑以及英特尔 MKL 和 Eigen BLAS 的性能结果。试验采用了英特尔至强处理器 E5-2699 v4(代号 Broadwell,2.20GHz,双插槽)、每个插槽 22 个物理核心(两个插槽上总计 44 个物理核心),122GB RAM DDR4,2133 MHz,禁用超线程,Linux 3.10.0-514.2.2.el7.x86_64 CentOS 7.3.1611,英特尔 MKL 20170209 版,Eigen BLAS 3.3.2 版,基于截至 2017 年 4 月 18 日的 Caffe2。


安装和使用使用 Caffe2 的说明见 http://Caffe2.ai。


今年下半年,新一代英特尔至强处理器(代号 Skylake)将全面上市。Skylake 引入了 512 位宽混合乘加运算(FMA)指令集,作为更大的 512 位宽矢量引擎——也就是英特尔 AVX-512——的一部分。这意味着在训练和推理工作负载上能够提供比 Haswell/Broadwell 处理器中之前的 256 位宽 AVX2 指令集更高的性能。512 位款 FMA 让 Skylake 可以提供两倍的浮点运算能力,并大幅加快了卷积和递归神经网络中使用的单精度矩阵算法。推理工作负载是高度并行化的,并且它将受益于 Skylake 提供的更多核心。此外,Skylake CPUs 拥有重新架构的存储子系统,支持更高速系统内存和每个核心更大的中层缓存(MLC),它还有助于提升当前一代 CPU 的性能,并大幅加强已安装四年的旧系统。


作者简介


Andres Rodriguez 博士是英特尔人工智能产品事业部(AIPG)的高级首席工程师,为英特尔的客户设计深度学习解决方案,并领导英特尔的所有深度学习产品。他在人工智能领域拥有 13 年的经验。Andres 在卡内基梅隆大学凭借机器学习领域的科研工作成果获得博士学位。他在期刊和会议上发表了 20 多篇同行评议的文章,并曾撰写有关机器学习的图书章节。


Niv Sundaram 博士是英特尔数据中心工程事业部(DEG)的工程总监,聚焦于当前和新兴工作负载的性能和电源优化。她领导团队与英特尔的客户一起为数据中心确定深度学习/机器学习和增强/虚拟/混合现实工作负载的特征。Niv 拥有威斯康星大学麦迪逊分校的电气工程博士学位,并获得过一项专利,发表过数篇同行评议文章。640.png


原文链接:https://software.intel.com/en-us/blogs/2017/04/18/intel-and-facebook-collaborate-to-boost-caffe2-performance-on-intel-cpu-s

入门英特尔深度学习深度学习框架Caffe2GPU工程
返回顶部