作为英特尔人工智能技术的年度分享活动,今天,这家芯片巨头系统介绍了自己近一年来的重要技术进展。这些技术充分展现了英特尔在芯片领域的领先水平:不仅有全面的人工智能芯片,独特的软硬件结合技术,还有多元化的场景和行业应用。
「英特尔 2019 年在人工智能领域的收入已经超过了 35 亿美元。当然,今年的统计还没有结束,」英特尔人工智能平台事业部总裁,人工智能产品和市场研究总经理 Julie Choi(辛周研)说道。「其中的很大一部分是在中国实现的。」
AI 业务因业务场景的不同,互相区别很大,人工智能解决方案必须是面向特定数据的。因此,英特尔致力于提供全面的人工智能解决方案。在硬件方面,英特尔可以提供目前最为完整和灵活的硬件产品组合与计算平台,包括 CPU、GPU、FPGA、NNP、VPU 等,满足从云到边缘,再到所有设备的不同工作负载需求。软件方面,英特尔则希望通过「OneAPI」计划,提供全面优化的软件,用以加速并简化人工智能技术的开发与部署,涵盖库、框架以及工具与解决方案等多个层面。
英特尔一直认为旗下的 CPU 至强(Xeon)可以承载如今人工智能产业的大多数计算任务。在活动中,Julie Choi 表示在 2020 年,至强分布式 CPU 将第一次获得 BFLOAT 支持,这是一种针对机器学习优化的专有浮点格式。「我们是唯一一家多种平台硬件都支持 BFLOAT 的公司。在 Photoshop 上,有至强核心的酷睿 i3 CPU 的推理吞吐量要比 AMD Ryzen7 要快 4.3 倍。」
作为英特尔为云端和数据中心客户提供的首个针对复杂深度学习的专用 ASIC 芯片,英特尔今年 11 月刚刚发布的 Nervana NNP 具备超高扩展性和超高效率。
在 2016 年英特尔收购 Nervana 之后,这是第一款正式推出的 AI 专用计算芯片。Neural Network Processor(神经元网络处理器)系列共分成两款,分别是以训练为主的 NNP-T 和以推理为主的 NNP-I。据称,NNP-I 可以实现每秒 50 万亿次运算,而且两款芯片都可以实现「几乎线性地」的并联,在 ResNet-50 和 BERT 等任务上扩展效率高达 95%。
神经网络训练处理器(Nervana NNP-T)在计算、通信和内存之间取得了平衡,不管是对于小规模群集,还是最大规模的 pod 超级计算机,都可进行近乎线性的扩展(可扩展至 32 块以上芯片并联)。
在活动中,百度百度 AI 系统架构师丁瑞全分享了双方在英特尔 NNP-T 和百度 X-Man 的合作,以及在飞桨 AI 平台等软件上提升模型训练效率的工作。预计在明年,百度的数据中心中就会首先部署英特尔 Nervana 的新产品。
英特尔介绍了下一代 Movidius Myriad 视觉处理单元 (VPU),其采用最新的 Keem Bay 架构,用于边缘媒体、计算机视觉和推理应用,并可以通过英特尔的 OpenVINO 深度学习框架来获得进一步的加速。
凭借架构优势,Keem Bay 版 VPU 可以提供 10 倍的吞吐量,其板卡也是 2PCIE 接口设计,可以支持更大的带宽,可为用户提供高密度的 AI 运算能力。
除常规芯片之外,英特尔也在推动面向未来的计算创新。英特尔中国研究院院长宋继强向我们介绍了英特尔在新计算架构上最近的探索。
神经拟态计算被认为是未来人工智能计算的一个重要研究方向。神经拟态计算使用脉冲神经网络(SNN),可以更形象地模拟人类神经元,形成异步电路,并通过脉冲方式激活,同时也可以对时间进行编码。相比常规芯片,神经拟态芯片的功耗可以低至千分之一。英特尔推出的 Loihi 神经拟态芯片是世界上第一个支持片上学习能力的神经拟态芯片,还可以实现「边计算边学习」。
包含 64 块 Loihi 芯片,代号为「Pohoiki Beach」的 800 万神经元神经拟态系统如今已经可供广大研究人员使用,并已形成了包含 75 家研究机构和公司的研究社区。
在量子计算方面,英特尔使用了业界主流的低温超导量子位计算思路,推出过 49 量子位的测试芯片 Tangle Lake。
英特尔还探索了量子计算的另一个方向:通过硅电子自旋表示量子态,构造量子位。「我们的量子计算芯片在 12 寸晶圆的生产线上已经可以进行生产了,」宋继强说道。「在未来,英特尔会着重在这个方向上进行投入。因为基于硅晶片的量子芯片易于规模化生产,可以让量子计算机走出『冰箱』。」
目前,深度学习模型的复杂度正在快速增加,对于算力的需求每 3.5 个月就翻倍一次。「我们需要大量数据训练模型,也需要更大、更深的模型,今天最为流行的自然语言处理模型 BERT 拥有 8.8 亿个参数,」Julie Choi 说道。「在这个 AI 进入知识提取层面的时代,我们还要有很长的路要走,这也意味着英特尔还有很多事要做。」