编辑微胖撰文邱陆陆

英特尔「机密档案」:严防死守背后,是怎样的一条AI硬件进击路

无论「Intel Inside」的标签有没有贴在设备上,从训练到推理,从服务器到终端的 AI 全产业链上,一个不可忽略的事实就是:Intel is still Inside。除了大型 GPU,对于每一种架构风格,英特尔也有一个或更多的处理器产品。英特尔正在不断改进其在智能时代的表现,也将继续影响我们的生活。

Intel inside,可以说是 20 世纪最成功的品牌营销活动之一,借由它,生产「芯片」这个普通消费者看不见也摸不着的产品的英特尔,变成了家喻户晓的品牌。

不过,提起 AI 时代的芯片,英特尔却未必是首先被想起的名字。

一方面,独立 GPU 的主要市场份额持有者英伟达,用不到两年时间里超过五倍的市值增长神话,彰显了自己的明星地位。



另一方面,曾经从英特尔大量采购芯片的科技巨头公司,例如谷歌、微软、亚马逊等也开始了其芯片的自主研发。

加之曾在 CPU 领域与英特尔业务高度重合的 AMD 和 ARM 正持续发力,以及 IBM Power 处理器的开源,英特尔的霸主地位似乎正在动摇。

不过,没听说过 Movidius VPU(视觉处理单元),你可能知道大疆(DJI)今年推出了一款具有手势识别遥控功能的迷你无人机。

不熟悉 Mobileye 这个名字,或许听过特斯拉 Autopilot 功能及其一度因为交通事故引发的争议。

这些人工智能硬件公司采用的芯片前,都要加一个英特尔商标。

事实上,借由其体量的优势,英特尔在 AI 硬件方面完成了深远布局。从训练到推理,从服务器到终端的 AI 全产业链上,一个不可忽略的事实就是:Intel is still Inside。

不过,2015 年的英特尔还是另一番景象。

此时的英特尔还没从移动芯片一役中喘过气来。受制于电池瓶颈,x86 架构惨败于 ARM,被高通切走了移动芯片的大蛋糕。

但英特尔并不甘心。

2014 年,公司成立单独的「移动与通讯事业部」(MCG),并在财报上分部报告业绩。结果,MCG 当年第四季度因为高额补贴和惨淡销量最终报出了「负营收」。随后,MCG 被迅速并入 PC 芯片所在的「客户端计算事业部」(CCG)。

当许多人都在担心,英特尔会不会像诺基亚、柯达这些巨头一样「成于规模败于规模」时,它已经开始更换策略备战人工智能浪潮。

「买买买」

在某些市场比较成熟时,英特尔开始寻找一些收购机会。

在它的购物车里,仅过去两年、仅直接生产人工智能相关芯片的收购,就有 4 笔之多,且都是一掷千金的溢价大手笔。

比如,2015 年 12 月公司斥资 167 亿美元收购了 FPGA 领域第二大制造商 Altera。今年 3 月,153 亿美元收购自动驾驶 SoC 生产商 Mobileye。

败家归败家,英特尔还是从一系列的收购举措里补全了自己的生态链。



首先是移动端和车载终端。

端智能,是未来趋势之一。物联网需要深度学习,还需要边缘计算。

在图像处理领域,Movidius Myriad X VPU 和 Mobileye EyeQ 可以让终端设备获得能够当场应用训练好的神经网络模型进行推理的能力,并满足其他市场需求,比如隐私保护、网络环境条件的限制以及功耗限制等。

今年 10 月,谷歌在「谷歌制造」(Made by Google)活动上宣布了 8 款全新硬件产品,其中,非常引人注目的一款 Google Clips 相机就应用了 Movidius Myriad 2 VPU 芯片。

 Movidius 的视觉处理芯片 VPU 大小都在 1 平方厘米以内,功率小于 1W。可用于各类有一定图形运算需求的小型终端设备。市场上最常见的一代 VPU 产品 Myriad 2,价格不到 10 美元。



巴掌大小的 Clips 相机面向家庭场景,能够自动寻找有价值的瞬间并进行捕捉。当相机看到一张「图片」时,系统会自动计算它的「价值」,决定保留还是舍弃它,为更多的照片腾出空间。所有这些机器学习算法都在机器本地运行,最大程度保护了用户的隐私。



如果说,Clips 主要出于隐私和功耗考虑选择本地部署深度学习推理能力,那么,大疆的 Spark 无人机主要考虑到网络环境和延迟因素。

无人机飞行环境具有多样性,实时控制非常重要,因此本地算力必不可少。Spark 用 VPU 获得了空间感知与情景感知能力,并且加入了手势控制功能。

2016 年底,签订合作协议后,国内安防巨头海康威视基于 Xeon 服务器 + Myriad 2 的架构实现了可以进行全景监测、也可以进行细节抓拍、云端和本地算力结合的摄像机系列。


今年 7 月,Movidius 还发布了拥有 Myriad 2 核心的神经计算棒(ncs),可以用 1W 的功耗获得最高 100 GFLOPs 的性能,长成了一个 U 盘的样子,让开发者可以方便地在自己的电脑上完成神经网络的验证和调试。

现在,可以直接在国内电商平台购买这款计算棒,售价仅需 599 元。



如果开发者对终端算力的要求更高一些,对实时性更敏感一些,那么他很可能在做自动驾驶研发。

翻翻英特尔的购物车,你又可以找到 Mobileye EyeQ 系列。

 

全世界累计超过 1500 万辆车中安装了 Mobileye 的系统,你甚至可以在淘宝上买到可以自行安装在车里的面向个人用户版本的 ADAS 系统。



或许你不知道,身边的沃尔沃、通用、宝马、现代等车辆里的辅助驾驶功能大多通过 Mobileye 于 2010 年推出的 EyeQ2 实现。

第一代特斯拉 Autopilot 的背后则是支持 L2 级自动驾驶的 EyeQ3。顺便说一句,Tesla Model S 是第一台能在终端进行深度神经网络推理的量产车型。当遍布车身的十余个各类传感器得到了关于路况的信息时,芯片可以处理这部分信息并据此作出相应的预警、刹车、变道等操作。

EyeQ 系列最新的版本 EyeQ4 能够支持 L3 级别的自动驾驶,预计于 2018 年开始量产。12 月 16 日刚刚发布的蔚来汽车里就使用了 EyeQ4 的芯片,是第一款使用 EyeQ4 的量产车。

值得注意的是,计划于 2020 年生产的 EyeQ5 将采用 7 纳米的芯片制作工艺!要知道英特尔展示完 10 纳米制作工艺,还未将其应用到任何 PC 芯片的实际生产中。

也就是说,最先使用到最先进制作工艺的芯片,是车载设备,而不是电脑。

其次,云端服务器。

更多的自然语言处理和语音识别领域的算法会优先部署在云端。所有人工智能算法在进行推理(inference)之前都需要首先完成训练(training)。

训练过程大多都在服务器端完成。



英特尔是这个领域的最大玩家,业务驾轻就熟。公司先后收购了 Altera 和 Nervana,弥补其数据中心产品线上的差距,以更好地参与到急速增长的人工智能市场中去。

先来看看 Altera。

FPGA 业界的格局非常明晰,Xilinx(赛灵思)和 Altera 占据了 80% 以上的市场份额。Xilinx 作为业界领头羊,做了许多开发工具层面的工作。

FPGA 全名是「现场可编程门阵列」(Field Programmable Gate Array),可以理解成一块「哪里需要哪里搬」的金砖。

FPGA 和人工智能相关的主要机会正是云端服务器的可配置运算。

和 GPU 一样,FPGA 也是可供 CPU 大管家统筹调遣的厨子。要做好深度学习算法这道菜,最理想的办法就是帮管家多请几个厨子。CPU 大管家可以请来的厨子有 GPU、FPGA、专用 CPU 和 ASIC。

虽然 GPU 这个厨子非常抢手,但是,「FPGA 加速神经网络」正在取代 GPU 热潮的新方向。

 

GPU 本来是为了游戏以及专业渲染而生的一类芯片,因为训练深度学习模型和渲染图像一样都要进行大量矩阵运算,且 GPU 出货量大、开发者社区成熟,所以被大量研究者用在了加速深度学习计算里。

 

如果你关心神经网络计算加速话题,会发现「GPU 加速神经网络」的论文越来越少,而且更多围绕缓存、内存等枝节问题。

换句话说,GPU 本身的结构已经没有什么新内容出现了。

 

不同于 CPU 和 GPU,FPGA 本身的性能还在飞速的攀升,如果 GPU 的结构没有革命性的改变,那么 FPGA 在通用计算加速方面全面超越 GPU 是指日可待的事情。

另一方面,FPGA 低延迟、高带宽、支持各种精度数据的特点也让它非常适合于深度学习相关的运算。

这些也是英特尔收购第二名 Altera 的主要原因。目前,公司主要通过帮助 Altera 开发工具,并且着重进行 CPU 与 FPGA 之间的打通和融合,来增强 Altera 的竞争力。



英特尔领投的国内嵌入式独角兽地平线,就利用英特尔的 Xeon CPU + Arria 10 FPGA 开发了一系列产品,包括亮相 2017 年 CES 的自动驾驶辅助系统,也包括智慧城市系统。

系统利用 FPGA 不需要缓冲、存储,能够进行低延迟实时处理的特性,对 1080p 的视频流进行实时处理,识别标定机动车、非机动车、行人等主体。



另外,很多国内的云平台厂商也都在搭建自己的计算加速平台时引入了 FPGA,不过都还在比较初期的尝试阶段。

阿里云在今年年初给出了基于 Arria 10 的 FPGA 实例,又在 9 月给出了基于 Xilinx 的 FPGA 实例。

他们还做起了平台生意——卖算法。既然 FPGA 开发难度太高,那么按需付费使用就也变成了一条灵活的通路。



再来说说 Nervana。

如果说 FPGA 是深度学习模型结构尚未稳定的时期,兼顾了性能与灵活度的选择,那么,ASIC 就是真正意义上的「为机器学习而生」。

ASIC 全称「专用集成电路」(Application-specific integrated circuit),专指为了特定需求量身定制的芯片。

其实,最开始 GPU 也是为了少部分专业研究人员的流体模拟、3D 建模需求而出现的一种 ASIC,而 GPU 的出现也推动了更多应用场景的出现(比如高性能游戏),二者交替进步,最终让 GPU 成为一个独立市场。

在机器学习上,GPU 可以出色完成任务。不过,绝大多数 GPU 也有很多其他用途,如专为处理图形图像、生产图形输出。

此外,GPU 还提供高精度浮点,用于高性能计算机在金融分析、模拟和建模上的应用,而这些不需要深度学习算法。所有这些功能都会占用宝贵的芯片空间和能量。

因此,人们也开始思考是否需要从硬件层面对这一类计算的需求进行量体裁衣的满足。

 

Nervana 就是这样一家公司。

他们使用理论上速度最快的矩阵操作算法,做出了速度极快的优化框架、又走向了 ASIC 芯片设计。理论上来说,Nervana 的方法能够实现更高的性能,或者降低这些计算密集型的工作负荷成本。

英特尔需要另一种硬件架构,也非常擅长整合技术。通过这次收购,英特尔就能得到一个用于深度学习的具体产品和 IP,它们可被用在单独加速器上,也能与英特尔未来的技术融合起来,生产出更具竞争力、创造性的产品。

2016 年加入英特尔大家庭之后,Nervana 终于在今年 10 月正式发布了 Intel Nervana NNP 神经网络处理器。

「我们很高兴能与 Facebook 密切合作,他们分享了自己的洞见,并帮助我们将新一代 AI 硬件投入市场。」CEO Brian Krzanich 在发布后公开表示。这也是 Intel 非常少见的在开发新芯片阶段就与其他公司进行合作。

至此,除了大型 GPU,对于每一种架构风格,英特尔都有一个或更多的处理器。

据英特尔人工智能产品事业部业务拓展总经理 Fiaz Mohamed 透露,Intel 将会在今年年底收到合作伙伴对于 NNP 的性能反馈,并且获得来自第三方的标杆指标数据。

研发、研发、还是研发

除了「买买买」,英特尔也加快了自己的研发步伐。

Intel 尝试了用多 CPU 并行完成深度学习的方法。

2016 年 6 月,在德国法兰克福举办的国际超级计算大会上,英特尔推出了一款 72 核 Xeon Phi 芯片。Xeon Phi,虽然和英特尔的服务器 CPU 系列 Xeon 有着相似的名字,但其用途截然不同。

这款 Xeon Phi「Knights Landing」芯片是英特尔最强劲、最昂贵的芯片,瞄准机器学习以及超级计算机市场(两个英伟达 GPU 颇受欢迎的市场)。

目前,公司已经将芯片用于几个世界领先的超级计算机中。对中国禁售前,我国,也是世界上第二快的超级计算机,天河二号就使用了大量的 Xeon 和 Xeon Phi 芯片。

同年,他们也宣布将会推出一个专用于深度学习版本的 Xeon Phi,名为 Knights Mill,虽然芯片仍在开发中,细节仍然不详,但预计是会采用对低可变精度的支持从而获得加速的方法。

现在,已有的、未针对机器学习作出特别开发的 Xeon Phi 加速器,已经被应用在国内外云平台上,例如美团云就提供了基于 Xeon Phi 的云服务 IaaS 产品,利用英特尔产品在高速存储和底层优化方面的优势,取得了高端 GPU 相当的水平。


值得一提的是,虽然英特尔十年前涉足独立 GPU 的努力 Larrabee 以失败告终,但英特尔的 Iris 集成显卡仍然是世界上出货量最大的 GPU,并且并未放弃进军独立 GPU 的野心。

上个月,英特尔不但和 AMD 宣布了时隔 35 年的合作,AMD 的图形处理负责人 Raja Koduri 也跳槽成为了英特尔新成立的核心与视觉计算组(Core and Visual Computing Group)的负责人。

英特尔在介绍 Raja 时,毫不掩饰地说,「Koduri 将致力于扩大英特尔在个人电脑市场集成显卡领域的领先地位,同时为广泛的计算领域提供高端独立显卡解决方案。」



深度学习算法本身的发展仍然在其婴儿阶段,未来的基础算法领域的变革还会为这个行业带来非常多的不确定性。

到时候 GPU 还会像现在一样适合进行人工智能算法的计算加速吗?ASIC 选择的方向与算法发展的方向一致吗?FPGA 又需要多长时间调整适应新一代的算法?

问题的答案仍然笼罩在未来的迷雾中。

产业英特尔硬件