Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蒋思莹作者

AI芯片大战背后

AI不仅是最大科技热点,也是未来数十年科技发展趋势。伴随着这股热潮,AI芯片成为了半导体行业的新风向,投资者的新宠。AI芯片经过了2018年的喧嚣,在2019年得到了沉淀。伴随着AI芯片企业的成长,7nm工艺也逐渐成熟,这两者在多元化应用场景的催化之下,也为市场提供了更多的AI芯片产品。

人工智能的运用分成两个阶段,一是学习训练阶段,二是推理阶段。训练芯片通常需要通过大量的数据输入,或采取增强学习等非监督学习方法,训练出一个复杂的深度神经网络模型,这其中以英伟达的GPU表现最为突出。推理芯片则是利用训练好的模型,使用新的数据去“推理”出各种结论,此需求也促进GPU、FPGA和ASIC等不同硬件的发展。

经过几年的发展,很多企业也开始围绕着AI训练芯片或AI推理芯片展开了竞争。在这场大战背后,有几个现象值得关注。

英特尔对英伟达虎视眈眈

伴随着人工智能时代的到来,海量数据的红利,使得AI训练芯片得到了快速发展。在这当中,GPU因其通用性和高性能的优势,被AI训练芯片市场所接受,据相关数据显示,GPU在云端训练市场上占比高达90%。而提到GPU就不得不提到,GPU行业的传奇——英伟达。

英伟达在2006以及2007年,分别推出了Tesla架构以及CUDA系列编程环境,降低了将GPU用作于通用计算的难度。2012年,随着人工智能深度神经网络技术的突破发展,英伟达也凭借其在GPU领域的积累迅速崛起,股价一路飙升——2015年20美元的股价在2018年到达了292美元的高点。财富的积累,也为英伟达接下来的发展带来了机会。这可以从英伟达在研发上的投入得以体现,英伟达在研发投入上一直保持着增长的趋势,2016到2018财年中增长35%,2019财年前两个季度就投入了11.2亿美元,同比大涨36%。从营收上看,据其第三季度财报数据显示,英伟达2020财年Q3营收达30.14亿美元。

英伟达一路高歌猛进,也使得其他企业盯上了AI这块大蛋糕。2016年英特尔宣布了“以数据为中心”的战略转型,AI的发展离不开数据,从其战略转型中,也不难看出英特尔正在着力布局AI领域。作为一家老牌半导体企业,英特尔雄厚的资金力量和技术积累,为其发展AI芯片奠定了基础。

具体来看,自2016年以后,英特尔就开始陆续收购AI芯片企业——2016 年 8 月,英特尔以 4.08 亿美元收购了 Nervana;2019年12月,英特尔在 AI 芯片领域又出手了,公司宣布以 20 亿美元收购以色列芯片制造商 Habana Labs。有了 Habana Labs的加持,使得英特尔在训练芯片和推理芯片上能够更上一层楼。(Habana Labs的明星产品是两个AI专用芯片:AI 推理芯片 Goya(戈雅)和 AI 训练芯片 Gaudi(高迪)。其中, Gaudi被英国资深芯片工程师James W. Hanlon,评为了当前十大AI训练芯片之一。)

英特尔对AI芯片的未来十分看好。从英特尔公布的消息来看,2017年,英特尔的AI芯片部门收入达10亿美元;2019年,AI收入预计将达到35亿美元,这也意味着英特尔的AI营收两年增长了250%。

在这种增长率的背后,自然离不开产品的支撑。据介绍,2017年英特尔AI收入来主要自于英特尔至强处理器在数据中心中的AI应用,而2019年则包含了其今年最新推出的AI芯片——NNP系列。2019 年 11 月在人工智能峰会上,英特尔发布了首款云端 AI 专用芯片 Nervana 神经网络处理器(NNP)系列产品。NNP全称 Nervana Neural Network Processor,这是英特尔推出的第一款面向数据中心客户,针对复杂深度学习的专用 ASIC 芯片。Nervana NNP 并不是一枚芯片,而是一个芯片家族。据悉,NNP-T用于训练,NNP-I主打推理。

NNP-T

NNP-T采用了16nm FF+制程工艺,有270万个16nm晶体管,硅片面积680平方毫米,60mmx60mm 2.5D封装,包含24个张量处理器组成的网格。核心频率最高可达1.1GHz,60MB片上存储器,4个8GB的HBM2-2000内存,它使用x16 PCIe 4接口,TDP为150~250W。

NNP-I

NNP-I采用了10nm工艺,基于Ice Lake处理器,在数据中心推理工作负载中,它的效率达4.8TOPs/W,功率范围可以在10W到50W之间。在ResNet50上,NNP-I在10W的功率水平上每秒可以完成3600次推理,每瓦每秒可以处理360张图片。

相较于英特尔,英伟达则选择在今年的11月中低调地发布了其GPU新品——基于Volta Tesla的新变种,Tesla V100s,来捍卫其在AI领域中的地位。据外媒报道显示,在配置方面,Tesla V100S具有相同的GV100 GPU,该GPU基于12nm FinFET工艺而打造。规范包括5120个CUDA内核,640个Tensor内核和32 GB的HBM2内存。即使这些规格与现有的Tesla V100非常相似,但是GPU和内存时钟速度都进行了一些重大更改。Tesla V100S采用250W设计,在300W的TDP下可提供14.75 TFLOP的最大FP32计算性能。

国内芯片公司蠢蠢欲动

AI新时代的到来,让众多企业站在了同一起跑线上。在这大争之世中,不仅有老牌半导体巨头的强势参与,也有一些国产品牌开始初显锋芒。同时,我国庞大的电子市场所带来的数据资源,也为AI训练芯片的发展提供了肥沃的土壤。在这种环境的驱动下,国产厂商也开始试水训练芯片市场。

华为曾在2018年10月举办了一场主题为AI的大会,2019年8,华为推出了华为昇腾910,该芯片昇腾 910 定位于云端 AI 芯片,着重 AI 训练能力。昇腾910是华为首款采用达芬奇架构的 AI 芯片,基于 7nm 增强版 EUV 工艺,其 AI 核集成了 3D 立方体计算引擎,可以在一个时钟周期内完成 4096 的乘加运算。据悉,昇腾 910 是目前为止计算密度最大的单芯片,最大功耗为 350W。据infoq的报道称,最新的测试结果表明:在算力方面,昇腾 910 完全达到了设计规格,即:半精度 (FP16) 算力达到 256 Tera-FLOPS,整数精度 (INT8) 算力达到 512 Tera-OPS,重要的是,达到规格算力所需功耗仅 310W,明显低于设计规格的 350W。2019年10月,昇腾910也被James W. Hanlon评为当前十大AI训练芯片之一。

华为之外,我国互联网巨头也纷纷试水AI训练芯片。在人工智能时代之前,这些互联网企业经过多年的积累,已经建立了生态优势。待到深度学习热潮的爆发,这些互联网企业生态中的数据价值开始凸显,而这就需要AI训练芯片。互联网企业跨界涉足AI训练芯片领域,可以通过资本运作的方式来参与,也可以选择建立新的部门或子公司,通过硬核技术切入AI训练芯片的竞争。

腾讯于2018年8月投资了一家专攻于AI训练芯片的初创企业——燧原科技。在此则消息官宣的20个月后,燧原科技发布了其首款AI训练芯片“邃思”。据悉,邃思DTU主要应用于云端人工智能训练,采用格罗方德12nm FinFET工艺,480平方毫米主芯片上承载141亿个晶体管,算力可达20TFLOPS,最大功耗225W。该芯片基于通用 AI 处理器的设计,具备一定的可编程性,其计算核心拥有 32 个通用独立自主设计的可扩展神经元处理器(SIP),每 8 个 SIP 可以组合成 1 个可扩展智能计算群(SIC)。据燧原科技介绍,邃思 DTU 由 12nm FinFET 工艺打造,集成了 141 亿个晶体管,采用 2.5D 封装,具有 16Gbps 的 PCIe 4.0 接口和 25Gbps 的 ESL 高速互联。

此外,百度也宣布了其在训练芯片上的最新进展——在2018百度AI开发者大会上,李彦宏发布了中国首款云端AI全功能AI芯片“昆仑”,据悉,昆仑系列芯片将由百度自主研发,其中包含训练芯片昆仑818-300,推理芯片昆仑818-100。2019年12 月,三星百度官方宣布,百度首款 AI 芯片昆仑已经完成研发,将由三星代工,最早将于明年初实现量产。具体来说,昆仑芯片基于百度自主研发的,面向云、边缘和人工智能的神经处理器架构 XPU 和三星的 14nm 工艺技术。在算力方面,昆仑芯片支持PCIe 4.0 x8,提供 512 GBps 的内存带宽,在 150 W的功率下实现 260 TOPS 的处理能力;它支持针对自然语言处理的预训练模型 Ernie,推理速度比传统 GPU/FPGA 加速模型快 3 倍。

推理芯片市场百家争鸣

相较于训练芯片,推理的市场门槛相对较低,应用场景也更加广泛。这也使得,很多初创公司在推理芯片方面展开了竞争——寒武纪地平线依图科技、平头哥、比特大陆等厂商均于今年推出了相关产品。

乘着AI的东风,国内崛起了一批AI独角兽企业。寒武纪作为国内比较早的一批投入到AI芯片的企业,于2019年推出了“思元”系列两款产品——思元270、思元220。其中,思元220是寒武纪在第21届高交会正式发布的边缘AI系列产品。思元220(MLU220)芯片是寒武纪在边缘智能计算领域产品的代表。据悉,思元 220 是一款专门用于深度学习的 SOC 边缘加速芯片,采用TSMC 16nm工艺,同时采用了FCCSP的封装,尺寸15mmx15mm。客户可以根据实际应用灵活的选择运算类型来获得卓越的人工智能推理性能。思元220的推出也标志寒武纪在云、边、端实现了全方位、立体式的覆盖。

2019年2月27日,AI芯片初创企业地平线宣布,公司获得了6亿美元(约合40亿人民币)左右的B轮融资,估值达30亿美元,借此,地平线也成为全球估值最高的人工智能芯片独角兽企业。在今年10月的深圳安博会上,地平线发布了其新一代AIoT芯片“旭日二代”,这是“旭日”系列的第二款边缘AI推理芯片。据悉,旭日二代集成了地平线第二代 BPU 架构(伯努利架构),在边缘端即可实现全视频结构化能力。它的功耗仅2W,算力达4TOPS,其算力利用率高达90%。

依图科技作为我国“AI四小龙”之一,经过近8年的发展,其产品也被成功应用于智能安防、依图医疗、智慧金融、智慧城市、智能硬件等领域。2019年5月,依图推出了“发布即商用”的自研AI芯片求索(QuestCore™),这是一款云端AI推理专用芯片。据悉,依图QuestCore™使用了16nm工艺,采用SoC解决方案、ARM+ManyCore™架构、LPDDR4X内存,而其64路全高清摄像机实时解码、50路视频解析成为备受瞩目的功能。据介绍,作为云端服务器芯片,求索可以独立运行,不依赖Intel x86 CPU。这也是依图芯片与英伟达GPU、谷歌TPU和其他AI芯片公司研发的AI加速器产品一个很大的不同。

一股挖矿热潮,让比特大陆一举成为最受关注的科技公司之一。而伴随着这股热潮过后,比特大陆也开始思考它的发展之路。众所周知,“矿机”芯片主要以ASIC芯片为主,ASIC芯片的计算能力和计算效率都直接根据特定的算法的需要进行定制的,所以具有体积小、功耗低、高可靠性、保密性强、计算性能高、计算效率高等优势。而这种优势与AI时代下所需要的芯片不谋而合。因而,比特大陆也将目光投向了AI芯片领域,并推出了算丰系列芯片。2019年9月,比特大陆在福州正式发布其第三代AI芯片——城市大脑专用芯片BM1684,该芯片聚焦于云端及边缘应用的人工智能推理。据悉,该芯片采用台积电12nm工艺,在功耗16瓦的前提下,FP32 精度算力可达到2.2TFlops,INT8算力可高达17.6Tops,在Winograd卷积加速下INT8算力更提升至35.2Tops,并集成高清解码和编码算法,实现了低功耗、高性能、全定制,是一颗低功耗、高性能的SoC芯片。

此外,在2019年云栖大会上,阿里巴巴也重磅发布了其AI推理芯片——含光800,引发了行业的关注。据悉,含光800采用台积电12nm制程工艺,含170亿晶体管,支持PCIe 4.0和单机多卡,今年第四季度开始量产。据官方介绍,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。相关媒体报道称,含光 800 是阿里成立平头哥芯片公司后第一款正式流片的芯片,是阿里里巴巴第一次使用了自己的硬件架构,也是互联网公司研发的第一款大芯片。

结语

从上述消息中看,根据2019年各个企业发布的新产品显示,国外企业在AI训练芯片市场占有一定优势。国内专注于AI训练芯片的企业相对较少,实力比较雄厚的国内企业几乎不约而同地均选择了训练芯片和推理芯片双路线发展的策略,更多的本土公司则瞄准了AI推理芯片的发展。

而从2012年AI芯片初现峥嵘到现在的8年发展当中,AI早已经由一个概念逐渐落实到各个场景当中。在接下来优胜略汰的市场竞争中,这些企业或许将面临着巨大的压力,或许也会在未来经历一番行业并购,但无论如何这些AI芯片的后续发展仍更令人期待。

半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业AI芯片
1
相关数据
依图科技机构

依图是一家世界领先的人工智能公司,以AI芯片和算法技术为核心,研发及销售含AI算力硬件和软件在内的AI解决方案,全面解决机器看、听、理解和规划的根本问题,为AI发展和应用普及提供高性能、高密度和通用算力,满足云端数据中心、边缘计算和物联网不断增长智能计算需求,并将芯片技术与算法技术结合,形成在AI算力技术及产品领域的领先优势。在AI芯片领域,创新芯片架构通过融合通用计算和深度学习计算实现端到端处理能力,具备高性能及低功耗优势。在AI算法领域,在计算机视觉、语音和自然语言理解等领域处世界前列。

https://www.yitutech.com
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
寒武纪机构

寒武纪科技是一家AI芯片研发商。致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片,同时还为用户提供IP授权、芯片服务、智能子卡和智能平台等服务。

www.cambricon.com
地平线机构

以“赋能机器,让人类生活更安全、更美好”为使命,地平线是行业领先的高效能智能驾驶计算方案提供商。作为推动智能驾驶在中国乘用车领域商业化应用的先行者,地平线致力于通过软硬结合的前瞻性技术理念,研发极致效能的硬件计算平台以及开放易用的软件开发工具,为智能汽车产业变革提供核 心技术基础设施和开放繁荣的软件开发生态,为用户带来无与伦比的智能驾驶体验。

horizon.ai
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

非监督学习技术

非监督式学习是一种机器学习的方式,并不需要人力来输入标签。它是监督式学习和强化学习等策略之外的一种选择。在监督式学习中,典型的任务是分类和回归分析,且需要使用到人工预先准备好的范例(base)。一个常见的非监督式学习是数据聚类。在人工神经网络中,自组织映射(SOM)和适应性共振理论(ART)则是最常用的非监督式学习。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

张量处理器技术

张量处理器(英语:tensor processing unit,缩写:TPU)是Google为机器学习定制的专用芯片(ASIC),专为Google的深度学习框架TensorFlow而设计。 与图形处理器(GPU)相比,TPU采用低精度(8位)计算,以降低每步操作使用的晶体管数量。降低精度对于深度学习的准确度影响很小,但却可以大幅降低功耗、加快运算速度。同时,TPU使用了脉动阵列的设计,用来优化矩阵乘法与卷积运算,减少I/O操作。此外,TPU还采用了更大的片上内存,以此减少对DRAM的访问,从而更大程度地提升性能。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
Samsung Group机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业全球500强,三星集团包括众多的国际下属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保险、雷诺三星汽车等,业务涉及电子、金融、机械、化学等众多领域。 三星集团成立于1938年,由李秉喆创办。三星集团是家族企业,李氏家族世袭,旗下各个三星产业均为家族产业,并由家族中的其他成员管理,集团领导人已传至 李氏第三代,李健熙为现任集团会长,其子李在镕任三星电子副会长。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

推荐文章
暂无评论
暂无评论~