蒋思莹作者

AI芯片大战背后

AI不仅是最大科技热点,也是未来数十年科技发展趋势。伴随着这股热潮,AI芯片成为了半导体行业的新风向,投资者的新宠。AI芯片经过了2018年的喧嚣,在2019年得到了沉淀。伴随着AI芯片企业的成长,7nm工艺也逐渐成熟,这两者在多元化应用场景的催化之下,也为市场提供了更多的AI芯片产品。

人工智能的运用分成两个阶段,一是学习训练阶段,二是推理阶段。训练芯片通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型,这其中以英伟达的GPU表现最为突出。推理芯片则是利用训练好的模型,使用新的数据去“推理”出各种结论,此需求也促进GPU、FPGA和ASIC等不同硬件的发展。

经过几年的发展,很多企业也开始围绕着AI训练芯片或AI推理芯片展开了竞争。在这场大战背后,有几个现象值得关注。

英特尔对英伟达虎视眈眈

伴随着人工智能时代的到来,海量数据的红利,使得AI训练芯片得到了快速发展。在这当中,GPU因其通用性和高性能的优势,被AI训练芯片市场所接受,据相关数据显示,GPU在云端训练市场上占比高达90%。而提到GPU就不得不提到,GPU行业的传奇——英伟达。

英伟达在2006以及2007年,分别推出了Tesla架构以及CUDA系列编程环境,降低了将GPU用作于通用计算的难度。2012年,随着人工智能深度神经网络技术的突破发展,英伟达也凭借其在GPU领域的积累迅速崛起,股价一路飙升——2015年20美元的股价在2018年到达了292美元的高点。财富的积累,也为英伟达接下来的发展带来了机会。这可以从英伟达在研发上的投入得以体现,英伟达在研发投入上一直保持着增长的趋势,2016到2018财年中增长35%,2019财年前两个季度就投入了11.2亿美元,同比大涨36%。从营收上看,据其第三季度财报数据显示,英伟达2020财年Q3营收达30.14亿美元。

英伟达一路高歌猛进,也使得其他企业盯上了AI这块大蛋糕。2016年英特尔宣布了“以数据为中心”的战略转型,AI的发展离不开数据,从其战略转型中,也不难看出英特尔正在着力布局AI领域。作为一家老牌半导体企业,英特尔雄厚的资金力量和技术积累,为其发展AI芯片奠定了基础。

具体来看,自2016年以后,英特尔就开始陆续收购AI芯片企业——2016 年 8 月,英特尔以 4.08 亿美元收购了 Nervana;2019年12月,英特尔在 AI 芯片领域又出手了,公司宣布以 20 亿美元收购以色列芯片制造商 Habana Labs。有了 Habana Labs的加持,使得英特尔在训练芯片和推理芯片上能够更上一层楼。(Habana Labs的明星产品是两个AI专用芯片:AI 推理芯片 Goya(戈雅)和 AI 训练芯片 Gaudi(高迪)。其中, Gaudi被英国资深芯片工程师James W. Hanlon,评为了当前十大AI训练芯片之一。)

英特尔对AI芯片的未来十分看好。从英特尔公布的消息来看,2017年,英特尔的AI芯片部门收入达10亿美元;2019年,AI收入预计将达到35亿美元,这也意味着英特尔的AI营收两年增长了250%。

在这种增长率的背后,自然离不开产品的支撑。据介绍,2017年英特尔AI收入来主要自于英特尔至强处理器在数据中心中的AI应用,而2019年则包含了其今年最新推出的AI芯片——NNP系列。2019 年 11 月在人工智能峰会上,英特尔发布了首款云端 AI 专用芯片 Nervana 神经网络处理器(NNP)系列产品。NNP全称 Nervana Neural Network Processor,这是英特尔推出的第一款面向数据中心客户,针对复杂深度学习的专用 ASIC 芯片。Nervana NNP 并不是一枚芯片,而是一个芯片家族。据悉,NNP-T用于训练,NNP-I主打推理。

NNP-T

NNP-T采用了16nm FF+制程工艺,有270万个16nm晶体管,硅片面积680平方毫米,60mmx60mm 2.5D封装,包含24个张量处理器组成的网格。核心频率最高可达1.1GHz,60MB片上存储器,4个8GB的HBM2-2000内存,它使用x16 PCIe 4接口,TDP为150~250W。

NNP-I

NNP-I采用了10nm工艺,基于Ice Lake处理器,在数据中心推理工作负载中,它的效率达4.8TOPs/W,功率范围可以在10W到50W之间。在ResNet50上,NNP-I在10W的功率水平上每秒可以完成3600次推理,每瓦每秒可以处理360张图片。

相较于英特尔,英伟达则选择在今年的11月中低调地发布了其GPU新品——基于Volta Tesla的新变种,Tesla V100s,来捍卫其在AI领域中的地位。据外媒报道显示,在配置方面,Tesla V100S具有相同的GV100 GPU,该GPU基于12nm FinFET工艺而打造。规范包括5120个CUDA内核,640个Tensor内核和32 GB的HBM2内存。即使这些规格与现有的Tesla V100非常相似,但是GPU和内存时钟速度都进行了一些重大更改。Tesla V100S采用250W设计,在300W的TDP下可提供14.75 TFLOP的最大FP32计算性能。

国内芯片公司蠢蠢欲动

AI新时代的到来,让众多企业站在了同一起跑线上。在这大争之世中,不仅有老牌半导体巨头的强势参与,也有一些国产品牌开始初显锋芒。同时,我国庞大的电子市场所带来的数据资源,也为AI训练芯片的发展提供了肥沃的土壤。在这种环境的驱动下,国产厂商也开始试水训练芯片市场。

华为曾在2018年10月举办了一场主题为AI的大会,2019年8,华为推出了华为昇腾910,该芯片昇腾 910 定位于云端 AI 芯片,着重 AI 训练能力。昇腾910是华为首款采用达芬奇架构的 AI 芯片,基于 7nm 增强版 EUV 工艺,其 AI 核集成了 3D 立方体计算引擎,可以在一个时钟周期内完成 4096 的乘加运算。据悉,昇腾 910 是目前为止计算密度最大的单芯片,最大功耗为 350W。据infoq的报道称,最新的测试结果表明:在算力方面,昇腾 910 完全达到了设计规格,即:半精度 (FP16) 算力达到 256 Tera-FLOPS,整数精度 (INT8) 算力达到 512 Tera-OPS,重要的是,达到规格算力所需功耗仅 310W,明显低于设计规格的 350W。2019年10月,昇腾910也被James W. Hanlon评为当前十大AI训练芯片之一。

华为之外,我国互联网巨头也纷纷试水AI训练芯片。在人工智能时代之前,这些互联网企业经过多年的积累,已经建立了生态优势。待到深度学习热潮的爆发,这些互联网企业生态中的数据价值开始凸显,而这就需要AI训练芯片。互联网企业跨界涉足AI训练芯片领域,可以通过资本运作的方式来参与,也可以选择建立新的部门或子公司,通过硬核技术切入AI训练芯片的竞争。

腾讯于2018年8月投资了一家专攻于AI训练芯片的初创企业——燧原科技。在此则消息官宣的20个月后,燧原科技发布了其首款AI训练芯片“邃思”。据悉,邃思DTU主要应用于云端人工智能训练,采用格罗方德12nm FinFET工艺,480平方毫米主芯片上承载141亿个晶体管,算力可达20TFLOPS,最大功耗225W。该芯片基于通用 AI 处理器的设计,具备一定的可编程性,其计算核心拥有 32 个通用独立自主设计的可扩展神经元处理器(SIP),每 8 个 SIP 可以组合成 1 个可扩展智能计算群(SIC)。据燧原科技介绍,邃思 DTU 由 12nm FinFET 工艺打造,集成了 141 亿个晶体管,采用 2.5D 封装,具有 16Gbps 的 PCIe 4.0 接口和 25Gbps 的 ESL 高速互联。

此外,百度也宣布了其在训练芯片上的最新进展——在2018百度AI开发者大会上,李彦宏发布了中国首款云端AI全功能AI芯片“昆仑”,据悉,昆仑系列芯片将由百度自主研发,其中包含训练芯片昆仑818-300,推理芯片昆仑818-100。2019年12 月,三星百度官方宣布,百度首款 AI 芯片昆仑已经完成研发,将由三星代工,最早将于明年初实现量产。具体来说,昆仑芯片基于百度自主研发的,面向云、边缘和人工智能的神经处理器架构 XPU 和三星的 14nm 工艺技术。在算力方面,昆仑芯片支持PCIe 4.0 x8,提供 512 GBps 的内存带宽,在 150 W的功率下实现 260 TOPS 的处理能力;它支持针对自然语言处理的预训练模型 Ernie,推理速度比传统 GPU/FPGA 加速模型快 3 倍。

推理芯片市场百家争鸣

相较于训练芯片,推理的市场门槛相对较低,应用场景也更加广泛。这也使得,很多初创公司在推理芯片方面展开了竞争——寒武纪地平线依图科技、平头哥、比特大陆等厂商均于今年推出了相关产品。

乘着AI的东风,国内崛起了一批AI独角兽企业。寒武纪作为国内比较早的一批投入到AI芯片的企业,于2019年推出了“思元”系列两款产品——思元270、思元220。其中,思元220是寒武纪在第21届高交会正式发布的边缘AI系列产品。思元220(MLU220)芯片是寒武纪在边缘智能计算领域产品的代表。据悉,思元 220 是一款专门用于深度学习的 SOC 边缘加速芯片,采用TSMC 16nm工艺,同时采用了FCCSP的封装,尺寸15mmx15mm。客户可以根据实际应用灵活的选择运算类型来获得卓越的人工智能推理性能。思元220的推出也标志寒武纪在云、边、端实现了全方位、立体式的覆盖。

2019年2月27日,AI芯片初创企业地平线宣布,公司获得了6亿美元(约合40亿人民币)左右的B轮融资,估值达30亿美元,借此,地平线也成为全球估值最高的人工智能芯片独角兽企业。在今年10月的深圳安博会上,地平线发布了其新一代AIoT芯片“旭日二代”,这是“旭日”系列的第二款边缘AI推理芯片。据悉,旭日二代集成了地平线第二代 BPU 架构(伯努利架构),在边缘端即可实现全视频结构化能力。它的功耗仅2W,算力达4TOPS,其算力利用率高达90%。

依图科技作为我国“AI四小龙”之一,经过近8年的发展,其产品也被成功应用于智能安防、依图医疗、智慧金融、智慧城市、智能硬件等领域。2019年5月,依图推出了“发布即商用”的自研AI芯片求索(QuestCore™),这是一款云端AI推理专用芯片。据悉,依图QuestCore™使用了16nm工艺,采用SoC解决方案、ARM+ManyCore™架构、LPDDR4X内存,而其64路全高清摄像机实时解码、50路视频解析成为备受瞩目的功能。据介绍,作为云端服务器芯片,求索可以独立运行,不依赖Intel x86 CPU。这也是依图芯片与英伟达GPU、谷歌TPU和其他AI芯片公司研发的AI加速器产品一个很大的不同。

一股挖矿热潮,让比特大陆一举成为最受关注的科技公司之一。而伴随着这股热潮过后,比特大陆也开始思考它的发展之路。众所周知,“矿机”芯片主要以ASIC芯片为主,ASIC芯片的计算能力和计算效率都直接根据特定的算法的需要进行定制的,所以具有体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。而这种优势与AI时代下所需要的芯片不谋而合。因而,比特大陆也将目光投向了AI芯片领域,并推出了算丰系列芯片。2019年9月,比特大陆在福州正式发布其第三代AI芯片——城市大脑专用芯片BM1684,该芯片聚焦于云端及边缘应用的人工智能推理。据悉,该芯片采用台积电12nm工艺,在功耗16瓦的前提下,FP32 精度算力可达到2.2TFlops,INT8算力可高达17.6Tops,在Winograd卷积加速下INT8算力更提升至35.2Tops,并集成高清解码和编码算法,实现了低功耗、高性能、全定制,是一颗低功耗、高性能的SoC芯片。

此外,在2019年云栖大会上,阿里巴巴也重磅发布了其AI推理芯片——含光800,引发了行业的关注。据悉,含光800采用台积电12nm制程工艺,含170亿晶体管,支持PCIe 4.0和单机多卡,今年第四季度开始量产。据官方介绍,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。相关媒体报道称,含光 800 是阿里成立平头哥芯片公司后第一款正式流片的芯片,是阿里里巴巴第一次使用了自己的硬件架构,也是互联网公司研发的第一款大芯片。

结语

从上述消息中看,根据2019年各个企业发布的新产品显示,国外企业在AI训练芯片市场占有一定优势。国内专注于AI训练芯片的企业相对较少,实力比较雄厚的国内企业几乎不约而同地均选择了训练芯片和推理芯片双路线发展的策略,更多的本土公司则瞄准了AI推理芯片的发展。

而从2012年AI芯片初现峥嵘到现在的8年发展当中,AI早已经由一个概念逐渐落实到各个场景当中。在接下来优胜略汰的市场竞争中,这些企业或许将面临着巨大的压力,或许也会在未来经历一番行业并购,但无论如何这些AI芯片的后续发展仍更令人期待。

半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业AI芯片
相关数据
依图科技机构

依图科技是全球极少数拥有全栈AI核心自研技术的创新企业,在计算机视觉、语音识别、语义理解、智能决策、AI芯片等领域达到全球领先水平,是国内唯一具有提供超大规模、复杂环境下亿级规模城市的智能化运营管理技术能力的AI公司。

https://www.yitutech.com/
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

https://www.intel.cn/content/www/cn/zh/homepage.html
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
寒武纪机构

寒武纪科技是全球智能芯片领域的先行者,宗旨是打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。公司创始人、首席执行官陈天石教授,在处理器架构和人工智能领域深耕十余年,是国内外学术界享有盛誉的杰出青年科学家,曾获国家自然科学基金委员会“优青”、CCF-Intel青年学者奖、中国计算机学会优秀博士论文奖等荣誉。 团队骨干成员均毕业于国内顶尖高校,具有丰富的芯片设计开发经验和人工智能研究经验,从事相关领域研发的平均时间达七年以上。 寒武纪科技是全球第一个成功流片并拥有成熟产品的智能芯片公司,拥有终端和服务器两条产品线。2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越CPU和GPU,与特斯拉增强型自动辅助驾驶、IBM Watson等国内外新兴信息技术的杰出代表同时入选第三届世界互联网大会评选的十五项“世界互联网领先科技成果”。目前公司与智能产业的各大上下游企业建立了良好的合作关系。在人工智能大爆发的前夜,寒武纪科技的光荣使命是引领人类社会从信息时代迈向智能时代,做支撑智能时代的伟大芯片公司。

http://www.cambricon.com
地平线机构

地平线作为嵌入式人工智能全球领导者,致力于提供高性能、低功耗、低成本、完整开放的嵌入式人工智能解决方案。面向智能驾驶、智能城市和智能商业等应用场景,为多种终端设备装上人工智能“大脑”,让它们具有从感知、交互、理解到决策的智能,让人们的生活更安全、更便捷、更美好。

http://www.horizon.ai
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

非监督学习技术

非监督式学习是一种机器学习的方式,并不需要人力来输入标签。它是监督式学习和强化学习等策略之外的一种选择。在监督式学习中,典型的任务是分类和回归分析,且需要使用到人工预先准备好的范例(base)。一个常见的非监督式学习是数据聚类。在人工神经网络中,自组织映射(SOM)和适应性共振理论(ART)则是最常用的非监督式学习。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

张量处理器技术

张量处理器(英语:tensor processing unit,缩写:TPU)是Google为机器学习定制的专用芯片(ASIC),专为Google的深度学习框架TensorFlow而设计。 与图形处理器(GPU)相比,TPU采用低精度(8位)计算,以降低每步操作使用的晶体管数量。降低精度对于深度学习的准确度影响很小,但却可以大幅降低功耗、加快运算速度。同时,TPU使用了脉动阵列的设计,用来优化矩阵乘法与卷积运算,减少I/O操作。此外,TPU还采用了更大的片上内存,以此减少对DRAM的访问,从而更大程度地提升性能。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
相关技术
百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
三星机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业全球500强,三星集团包括众多的国际下属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保险、雷诺三星汽车等,业务涉及电子、金融、机械、化学等众多领域。 三星集团成立于1938年,由李秉喆创办。三星集团是家族企业,李氏家族世袭,旗下各个三星产业均为家族产业,并由家族中的其他成员管理,集团领导人已传至 李氏第三代,李健熙为现任集团会长,其子李在镕任三星电子副会长。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~