Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

华为的AI实力究竟如何?

最近,华为发布了Ascend 910 AI处理器和相应的Mind Spore AI框架,成为华为在人工智能领域又一次重要的发布。
Ascend 910性能分析

这次Ascend 910的主要目标是在云端应用,以训练为主。常规的AI芯片主打推理,而相对而言针对训练的AI芯片技术门槛更高。首先,训练AI芯片的算力需求和芯片规模常常要远大于推理芯片,因为在训练中需要处理的数据量会远大于推理,而规模更大的芯片则在工程上提出了更高的挑战,在内存访问、散热等方面都需要仔细设计。例如,目前主流的训练芯片都会使用HBM等基于3D/2.5D封装的内存接口以实现超高速内存访问,而这就大大提高了设计门槛。

其次,AI训练芯片对于规模化(scalability)的要求非常高。在AI训练应用中,分布式训练是一个必选项,例如训练模型时常常会使用分布在8台服务器上的64块训练加速芯片。如何在硬件上支持多卡多机训练,保证训练性能随着使用加速芯片数量接近线性增长也是一项非常具有挑战的工作,这需要加速芯片能支持高速数据接口,这也是Nvidia提出NVLink(用于单机多卡)以及收购Mellanox(用于多机)的原因。

在性能方面,我们看到Ascend能实现256 TFLOPS的FP-16算力,或512 TOPS的INT8算力,而功耗是310W。目前,训练主要使用FP-16实现,而512 TOPS的INT-8算力目前预计主要针对的是低精度推理,或许在未来随着低精度训练技术的发展也能支持一些模型的训练。256TFLOPS的峰值FP-16算力从目前来看大约是Nvidia V100 (120TFLOPS)的两倍,而目前公布的训练实测结果(单机Ascend 910训练ResNet50大约是Nvidia V100的两倍)也与该数字相符。相比其他AI芯片初创公司,Habana的Gaudi芯片训练ResNet的性能是Nvidia V100的3.8倍,相对而言和Ascend 910在同一数量级上。此外,Google的TPU v3根据公布的数据训练性能和Nvidia V100基本相当,因此可以说Ascend 910的单机训练性能站在了世界的领先水平。

不过,目前的数据并未展示Ascend的分布式训练性能,而该性能将会成为实际使用中最重要的性能。随着芯片测试进程,我们预计华为会在合适的时间公布这个数字,让我们拭目以待。

Ascend 910+MindSpore软硬件协同设计

除了Ascend 910之外,华为还在同一个发布会上着重介绍了其机器学习框架MindSpore。事实上,自研机器学习芯片加上机器学习框架将是华为机器学习领域的一个重要投资。

即使单纯从性能的角度考虑,MindSpore和Ascend 910的搭配预期也将能实现非常显著的提升。从单机性能来看,机器学习框架和机器学习芯片协同设计的优势在于可以实现最优的硬件调度和算子性能优化。目前主流的卷积神经网络的主要算子是卷积运算,因此如何将该算子映射到硬件上高效执行将是实现高性能的关键。

随着深度学习发展日新月异,新的算子层出不穷,而这就需要机器学习框架和芯片能给予有力的支持。除了算子之外,运算调度也是一个重要的方面。如何实现计算和内存访问的延迟匹配以减少内存访问对于计算性能的影响,以及如何确保片上内存数据的复用最大化将极大地影响性能。两者相结合,就是如何支持多种训练的数据流,包括前馈神经网络,循环神经网络等等。目前GPU对于循环神经网络的支持就不够高效,因此如何将机器学习框架和芯片协同设计以支持多种数据流是实现高性能的必经之路。

从分布式计算来看,MindSpore也是非常重要的性能保证。分布式计算是一个系统工程,在工程上有众多挑战,例如如何保证不同机器之间的负载分布合理,如何结合硬件设计保证高效训练同步等等都是需要一个强而有力的机器学习框架。

之前由于机器学习框架设计和硬件设计是分开的,因此往往做的是软件设计协同芯片设计,即首先设计较为抽象的机器学习框架,之后再根据当前最新的硬件模型去做相关的代码优化以保证能较为高效地运行在硬件上。一些较为底层的软件,例如TVM,也能实现算子和调度的优化。然而,这样的做法并未将硬件设计带入到反馈环中,它做的只是软件迁就硬件。这样的主要缺点在于:

(1)软件设计对于硬件的未来路线图缺乏把握,因此软件框架如果在一开始设计的思想和假设和硬件发展的未来路线图不符就会造成性能下降。

(2)硬件在设计时没有足够关于软件框架方面的考虑,由于对于软件和应用的把握不足,往往只能选择用性能换通用性。而华为这次选择把软件(MindSpore)和硬件(Ascend系列芯片)做协同芯片可以使用软硬件协同设计的方法来挖掘系统的整体性能,并且保证在未来的发展路线图上不会出现两者路线图相背离,从而确保长期的性能领先。

生态体系,目标应用市场

此次华为发布云端计算芯片Ascend 910加MindSpore,几乎就是直接对标谷歌的TPU加Tensorflow。然而,由于华为的商业模式与谷歌的不同,我们认为华为此举的目标并非是在这一代商业模式上和互联网巨头竞争,而是将直接瞄准下一代多种尺度混合的云。

随着人工智能的发展,我们认为它正在成为重要的生产力。在人工智能生产力中,如果说数据是燃料的话,那么云端算力就是新的发动机,取决于公司能多快多好地为目标应用训练和部署新的机器学习模型。随着人工智能相关的新应用日新月异(消费者应用如语音接口,美颜,视频生成,商业应用如信息流推荐系统,用户画像等等),云端算力决定了一个新的应用从构思到人工智能模型训练完成到应用正式上线的速度,这也是我们看到谷歌等互联网巨头大举布局云端算力的原因。这些互联网巨头布局云端算力的首先目标还是自用(因此TPU从推出到目前主要还是谷歌自用),可以加速其人工智能应用上线速度。

然而,华为与这些互联网巨头相比,其最大的不同在于数据量有限。由于华为目前的主要商业模式还是在于基础设施和消费者硬件市场,因此其收集的数据量和互联网公司来说相差巨大,因此自身对于算力的需求其实并没有那么大。因此,华为布局人工智能芯片和机器学习框架的主要目的我们认为不只是自用,而是为了布局下一代智能云。
下一代搭配5G的智能云可以拆解成几个部分。首先是本地算力(终端/边缘计算),其次是无线数据传输,而在云端则是云端处理能力。华为目前在第二个无线数据传输环节拥有最大的领先优势,而随着5G边缘计算范式的来临,华为大概率能拥有边缘计算领域的话语权,因此可以凭借自己在这方面的地位和话语权去推动边缘计算加人工智能,这也是去年华为首先发布边缘计算芯片Ascend 310的原因,以打通本地算力和无线传输环节。而随着华为在云端推出强算力的Ascend 910芯片,华为将会在云端也将慢慢追赶现有的领先云服务商。

在云端,下一代智能云和这一代云的主要区别就在于对于算力的强调,这也是我们看到亚马逊、谷歌、阿里巴巴华为百度等重点发展云计算的公司都在大力发展自己的芯片。除了算力之外,下一代云的另一个特点是计算和数据产生/处理都会发生在不同的地方(终端,边缘和云端),这些不同的运算和处理场景都有其独特的特点,因此需要能有一个统一的框架将这些异构的数据计算统一在一起,这也是华为发布MindSpore的重要目的。华为在下一代云领域的优势在于其布局非常完整,从多场景多规格芯片算力到数据传输都有积累,因此其完整的技术栈将会为华为在下一代云市场的重要优势。

半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业华为
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
AI芯片技术技术

一般的说,AI芯片被称为AI加速器或计算卡,即专门用于加速AI应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。 而从广义范畴上讲,面向AI计算应用的芯片都可以称为AI芯片。除了以GPU、FPGA、ASIC为代表的AI加速芯片(基于传统芯片架构,对某类特定算法或者场景进行AI计算加速),还有比较前沿性的研究,例如类脑芯片、可重构通用AI芯片等(但距离大规模商用还有较长距离)。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

反馈环技术

反馈回路是系统输出的某些部分(或全部)用作将来操作的输入的环结构。

推荐文章
暂无评论
暂无评论~