4亿美元收购案失败的背后:错失AI芯片时代的最好3年

「现在已经不是属于英特尔的辉煌时代。」

很难想象这句老生常谈的话竟然就出自英特尔之口。

近日,英特尔首席财务官 George Davis 向投资者承认,英特尔已经落后多家竞争对手,靠自己追赶至少需要两年时间。

在错过移动计算时代之后,英特尔一直以「花钱买时间」的收购和投资拉拢大量行业的千里马,以期重回行业巅峰。然而,千里马被伯乐纳入麾下并不完全意味着 happy ending 的到来。

迟到三年的 AI 芯片,3.5 亿美元买来的产品线和团队发展失利,于是被搁置、解散、沉寂……英特尔失去的远不止三年时间和 3.5 亿真金白银,还有 AI 芯片时代的绝佳位置。

从王位跌落很容易,但要夺回去可谓是难上加难。

撰文 | 盈君

编辑 | 四月

2014 年,三位神经科学博士从高通出走,在探索类脑芯片碰壁后,他们决定自立门户,在加州创立了 Nervana Systems,主攻半导体、软件和 AI 深度学习技术。

一年后,凭借拥有号称最快的深度学习框架 Neon 和首个结合机器智能软硬件云服务的 Nervana Cloud,Nervana Systems 获得市场的关注,并在这一年被 VentureBeat 评为值得关注的五家深度学习初创公司。

当时,同在加州的另一家老牌芯片公司英特尔,刚完成一笔史上最大金额的收购案,以 167 亿美元收购了现场可编程门阵列(FPGA)制造商 Altera。

PC 市场下滑已成定势,在错失移动计算后,英特尔希望在 AI 芯片时代王者归来,摆脱对 PC 业务的依赖。

若能跳跃式地实现进化,即使投入大手笔对英特尔来说也是一笔划算的买卖。


  1. 一 4 亿美元,为概念买单

收购了 Altera 之后,英特尔还缺少合适的硬件平台产品。

而正在此时,2016 年 2 月,Nervana Systems 发布基于 Neon 框架,宣称在 GPU 上可以达到 10 倍以上的深度学习训练速度。随后又宣布开发名为 Nervana Engine 的 AI 芯片,刚好与英特尔迫切发展云端 AI 芯片的需求不谋而合。

诞生两年,Nervana 设计出了自己的 AI 芯片架构,还积累了丰富的软件算法经验,这对英特尔来说都是必须拿下的闪光点。此外,Nervana Systems 在自动驾驶,车内语义分析以及传感器数据处理上都有所涉足,这些都将给英特尔带来补充。

向来「财大气粗」的英特尔,早已习惯「花钱买时间」的转型方法论,没有更多犹豫便开始了新一轮的买买买。

2016 年 8 月,两家一拍即合,以超出市场预期的 4.08 亿美元(有报道也称 3.5 亿美元)完成「联姻」,Nervana Systems 的 48 人团队加入英特尔

几个月后,英特尔整合旗下所有 AI 相关业务,成立人工智能产品事业部(AIPG),由 Nervana Systems 联合创始人 Naveen Rao 担任总经理,直接向当时的英特尔 CEO 汇报。

4亿美元收购案失败的背后:错失AI芯片时代的最好3年

Naveen Rao 已于美国时间 2 月 27 日宣布从英特尔离职

对于并购之后的路线,英特尔设想得很好。

Nervana Systems 在整合进英特尔之后,一方面可以利用英特尔全球的市场渠道,触及所有主流云服务商;另一方面英特尔还有自己的芯片代工厂,有很强的制造能力。

在 Nervana 正式商用之后,英特尔的计算产品线将从 CPU、FPGA、AI 终端芯片延伸至 AI 云端芯片,就可以形成与英伟达、AMD 的全面竞争。

如今看来,英特尔对收购后产品开发的预估过于乐观。Nervana Systems 被收购时还没有成型的产品,没有任何硬件开发,只有 Nervana Engine 的架构。某种程度上,英特尔也是在为一个 idea 买单。

二 艰难的磨合之路

在被英特尔收购之前,Nervana 声称其产品性能将比 GPU 高至少 10 倍,这有利于英特尔与英伟达在 AI 市场的竞争。不过,英伟达随即通过架构以及软件的改进的方式让其 GPU 性能快速提升,致使 Nervana 的 10 倍性能优势消失。

为此,Nervana 不得不重新设计,在与英伟达的你追我赶中,芯片从创意到达到量产级共花费了三年时间,这在分秒必争的芯片市场上沦为劣势。

Nervana Systems 被并入英特尔后,共设计出三款芯片,遗憾的是都未真正达成商业化。

Nervana 第一代产品 Lake Crest,2017 年初被爆出, 是专为训练 DNN 而深度定制的 ASIC 解决方案。英特尔宣布 2017 年上半年将会有芯片成品。

但直到 2018 年中,英特尔才宣布 Lake Crest 只是一个试用版的原型产品,而正式的芯片产品命名为 Spring Crest,将会于 2019 年正式发售。

先安抚后爆料,英特尔吊足了大家的胃口,称 Lake Crest 的性能指标将达到 12 核,32GB HBM 内存,峰值算力为 38TOP/s。据介绍,Lake Crest 使用了 Flexpoint 架构,MCM 多芯片封装,搭载 32GB HBM2 存储,内部互联速度是 PCIe 的 20 倍。

Spring Crest 的两款芯片最终在英特尔人工智能开发者大会(AI DevCon 2018)上首次展示,与初代 NNP 芯片 Lake Crest 相比,产品的训练性能提升了 3-4 倍。

一款是针对服务器端训练应用的 Nervana NNP-T,代号 Spring Crest。它使用的是台积电 16nm 工艺生产,核心面积高达 680mm2,集成 270 亿晶体管,搭配 32GB HBM2 显存,频率 1.1GHz,TDP 150-250W。具有 119TOPS 的峰值算力,并且通过 CoWoS 高级封装技术实现多芯片互联。对标英伟达 Tesla 系列 GPU 加速芯片。

而另一款则是针对边缘计算的 Nervana NNP-I,代号 Spring Hill,功耗 10W,能效比为 4.6TOPS/W。CPU 部分是英特尔的 10nm 工艺 Ice Lake 核心,功耗在 10-50W 之间,有 M.2 及 PCIe 两种规格,更为小巧灵活。

4亿美元收购案失败的背后:错失AI芯片时代的最好3年

Nervana 第二代芯片:Nervana NNP-T 和 Nervana NNP-I

据市场反馈,第二代 Nervana 设计根本满足不了那些高性能工作负载的要求。整个 2019 年,市面也并未得到 Spring Crest 系列真正商用的消息,直到今年 2 月 3 日,它被 Habana 顶替。

四年的磨合始终未能达成预期的产品线,屡次跳票的 Nervana 使得英特尔选择继续攻克下一个城池。2019 年 12 月,英特尔收购了以色列初创公司 Habana Labs。

Habana Labs 成立于 2016 年,比 Nervana 晚两年,被收购时已经拥有两款产品 Gaudi AI Training Processor 和 Goya AI Inference Processor。

相比 Nervana 迟迟不交付产品,Gaudi 人工智能训练处理器已经在为特定超大规模客户提供样品,Goya 人工智能推理处理器已实现商用。

4亿美元收购案失败的背后:错失AI芯片时代的最好3年

Habana Gaudi 芯片

Habana 能获得青睐的另一个杀手锏在于其出色的可扩展性——这是云端芯片最关键的门槛。在设计底层编译器和软件架构的时充分考虑软硬件协同,帮助 Habana 芯片取得了更好的可扩展性。

根据官方公布的数字,其分布式总体性能甚至在处理器数量大于 600 的时候也能接近线性,较之英伟达 V100 GPU,训练性能提高了接近 4 倍。

从技术上来说,Nervana 的神经网络处理器(NNP-T)使用专有的互连进行扩展,而 Habana 的 Gaudi 可以通过标准 100Gb 以太网扩展到数千个节点。Gaudi 甚至还支持远程直接内存访问 RDMA,而无需增加远程 CPU 的负担。

这种结构可以显着提高训练大规模神经网络模型的性能,以应对每 3 个半月神经网络模型大小就会增加一倍,处理越来越复杂 AI 任务的趋势。

市场本以为英特尔会手握两张王牌壮大力量,然而 Habana 和 Nervana 和谐共存的局面仅仅维持了不到三个月。

今年 2 月,英特尔决定以 Habana 取代原定的服务器端 AI 加速芯片 Nervana Spring Crest NNP-T,而 Spring Crest NNP-T 系列将停止开发,但会兑现之前推理芯片 Nervana NNP-I(代号 Spring Hill)向客户许下的承诺。Nervana Systems 联合创始人 Naveen Rao 也于上周宣布辞职,Nervana 终成「弃儿」。

Nervana 芯片被 Habana 顶替,除了自身技术不够成熟外,也与团队内部无可避免的内耗脱不开干系。

因出身专业背景不同,Nervana Systems 团队与英特尔的磨合本已耗时,团队多为神经生物学出身、没有半导体背景,在被纳入英特尔麾下后就与英特尔在市场路线、技术路线上产生了不少的矛盾。

Nervana Systems 联合创始人 Naveen Rao 专注于人工系统中的神经计算和学习,在生物系统的神经计算领域发表了多篇论文,还获得了视频压缩技术的专利;负责硬件的 Carey Kloss 是芯片验证出身;主架构师 Andrew Yang 背景是网络通信芯片的 ASIC design。

英特尔因其并购的公司最终结局多销声匿迹,而被坊间称作「硅谷最有名的公司杀手」,初创公司并入并不意味着可以得到足够的发展空间。

2018 年,英特尔此前收购的 Movidius 前 CEO Remi El-Ouazzane 被调入 AIPG,却没有实际的架构和产品路线的管理权。Nervana 被收购后也历经调整,AIPG 的位置也一直在 DCG 内部飘忽不定,同时还面对英特尔的 GPU 部门在产品定位上的全面竞争。

  • 2017 年 5 月,主持收购 Nervana 的 DCG 部门负责人 Diane Bryant 离职,后加入 Google 负责谷歌云。
  • 2017 年 11 月,Raja Koduri 从 AMD 加盟英特尔,主持 GPU 部门,并在 2018 年宣布和 NVIDIA/AMD 正面竞争。
  • 2018 年 1 月,英特尔 CEO Brian Krzanich 因为私生活问题辞职;6 月,CFO Bob Swan 出任临时 CEO,并于 2019 年 1 月转正。

人事调整屡屡滞后,英特尔内部对新鲜血液的接纳程度因此并不如市场期待的那么高。相比看来,英特尔这次迅速扶正 Habana,也是决策执行上的进步。Nervana 与英特尔的四年合作没有挽救颓势,面对落后竞争对手两年的时间差,Habana 这位新宠的胆子更重了些。

三 有伯乐,千里马就能跑得更远?

AI 芯片市场竞争程度不可小觑,据预估,AI 芯片市场规模未来 5 年增长有望达 10 倍。2020 年 AI 芯片全球市场规模将超过 100 亿美元,发展空间巨大。这其中,有英特尔、英伟达、AMD、谷歌等头部公司,有刚刚加入赛道的 AWS 等,还有刚加入赛道的 Wave computing、Groq寒武纪等初创公司势头正猛。

为了扩展疆域,巨头们在大肆布局自身产业链的同时,也在进行着外部战略性扩张,或出于优势互补的考虑,或为了压制潜在对手。

在收购 Nervana Systems 和 Habana Labs 之前,英特尔就曾部署了数次有价值的并购:为全面布局 FPGA 和 ASIC 而收购了现场可编程门阵列(FPGA)制造商 Altera,为扩展 AI 应用领域收购 Mobileye 和视觉处理器公司 Movidius,后又将开发 AI 模型套件的创业公司 Vertex.ai 收入囊中……

4亿美元收购案失败的背后:错失AI芯片时代的最好3年

2010-2020 年英特尔并购史 图源:知乎 @ljgibbs

英特尔收购 Nervana Systems 和 Habana Labs,就是出于巩固云数据中心的强势地位打下云计算人工智能芯片市场的重要考虑。同时,Nervana Systems 等公司也需要数千万甚至数亿美元的融资和强大的配套软件支持才能把云端 AI 芯片产品完成。

行业整合并购是大势所趋,初创公司作为被并购方不得不面对各种前途的可能性。此前国内 AI 芯片领域备受关注的明星企业深鉴科技,自 2018 年被赛灵思收购后就无大动静,昔日的明星也身不由己。

初创团队在市场还不成熟时,为获得更大发展转投靠山,不意味着发展的一蹴而就。商业战场上,背靠大树不见得好乘凉,被伯乐赏识只是或好或坏的新起点,被收购后还会面临很多的不确定性。

此次 Nervana 在自研芯片还未流片的节点就被英特尔收购,让投资人以极快的节奏退出拿到回报,从商业上看,不小的成交额对于初创团队来说是成功了。

Naveen Ra 领导下的 AI 业务也实现了快速增长,单在 2019 年就为英特尔创下了 38 亿美元的收入。但从创业初衷层面看,被收购后受制于公司宏观发展战略的限制,Nervana 创始团队离开高通时怀揣的芯片梦,却无法再有实现的可能。

产业英特尔NervanaAI芯片
相关数据
AWS机构

亚马逊网络服务系统(英语:Amazon Web Services,缩写为AWS),由亚马逊公司所创建的云计算平台,提供许多远程Web服务。Amazon EC2与Amazon S3都架构在这个平台上。在2002年7月首次公开运作,提供其他网站及客户端(client-side)的服务。截至2007年7月,亚马逊公司宣称已经有330,000名开发者,曾经登录过这项服务。

相关技术
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

https://www.intel.cn/content/www/cn/zh/homepage.html
相关技术
高通机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

深鉴科技机构

深鉴科技成立于2016年3月,定位为深度学习硬件解决方案公司,将以自主研发的深度压缩与深度学习处理器(DPU)为核心,打造最好用的解决方案和最高效的整体系统,提供硬件+芯片+软件+算法的完整方案,方便所有人使用。同时,深鉴主要瞄准智慧城市和数据中心两大市场,可帮助用户为多种智能安防场景打造稳定高效的解决方案。

相关技术
寒武纪机构

寒武纪科技是全球智能芯片领域的先行者,宗旨是打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。公司创始人、首席执行官陈天石教授,在处理器架构和人工智能领域深耕十余年,是国内外学术界享有盛誉的杰出青年科学家,曾获国家自然科学基金委员会“优青”、CCF-Intel青年学者奖、中国计算机学会优秀博士论文奖等荣誉。 团队骨干成员均毕业于国内顶尖高校,具有丰富的芯片设计开发经验和人工智能研究经验,从事相关领域研发的平均时间达七年以上。 寒武纪科技是全球第一个成功流片并拥有成熟产品的智能芯片公司,拥有终端和服务器两条产品线。2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越CPU和GPU,与特斯拉增强型自动辅助驾驶、IBM Watson等国内外新兴信息技术的杰出代表同时入选第三届世界互联网大会评选的十五项“世界互联网领先科技成果”。目前公司与智能产业的各大上下游企业建立了良好的合作关系。在人工智能大爆发的前夜,寒武纪科技的光荣使命是引领人类社会从信息时代迈向智能时代,做支撑智能时代的伟大芯片公司。

http://www.cambricon.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

赛灵思机构

赛灵思作为FPGA、可编程SoC的发明者,一直坐稳全球最大的FPGA芯片供应商头把交椅。赛灵思的产品线覆盖45/28/20/16nm四个系列的FPGA以及Zynq SoC,旗下拥有着超过4400项技术专利、60多项行业第一的技术产品,服务着全球超过60000的客户。赛灵思耗时4年,超过1500名工程师的研发参与,超过10亿美元的研发投资,推出高度集成的多核异构自适应计算加速平台——ACAP!10月赛灵思发布了统一软件平台Vitis,成功“打破软硬件壁垒”。

https://china.xilinx.com/
相关技术
知乎机构

作为中文互联网综合性内容平台,知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

https://www.zhihu.com
Groq机构

Groq 成立于 2016 年底,2017 年 4 月初次进入公众视野:宣布获得 1030 万美元融资。作为芯片领域的创业公司,Groq 一经出现就获得了极大的关注。公司创始成员为谷歌TPU设计成员之一。在接受CNBC的采访时,有关人士曾透露,该公司拥有TPU原始团队的大部分成员。在沉寂了几个月后,Groq 还吸引到了赛灵思全球销售执行副总裁 Krishna Rangasayee 的加盟,担任 COO。

groq.com/
相关技术
现场可编程门阵列技术

FPGA(Field Programmable Gate Array)是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。

类脑芯片技术

类脑芯片是一种结构独特,可以仿照人类大脑的信息处理方式进行感知、思考、产生行为。人脑中的突触是神经元之间的连接,具有可塑性,能够随所传递的神经元信号强弱和极性调整传递效率,并在信号消失后保持传递效率。而模仿此类运作模式的类脑芯片便可实现数据并行传送,分布式处理,并能够以低功耗实时处理海量数据。

推荐文章
暂无评论
暂无评论~