Karl Freund作者

AI芯片现状:领导者很难被超越

第二届AI HW峰会于9月17日至18日在硅谷中心举行,近50位演讲者向500多位与会者(几乎是去年首届参会人数的两倍)发表了演讲。虽然我不可能在一个简短的博客中涵盖所有展示的公司,但我想分享几点看法。

John Hennessy的观点

计算机架构传奇人物John Hennessy,Alphabet董事长兼斯坦福大学前校长。他介绍了半导体的历史趋势,其中摩尔定律和Dennard Scaling的过时消亡,引发了对“特定领域架构”(Domain-Specific Architectures)的需求和机遇。这个"DSA"概念不仅适用于新颖的硬件设计,也适用于深度神经网络的新软件架构。挑战是创建和训练大量的神经网络,然后优化这些网络,使其在DSA上高效运行,无论是CPU、GPU、TPU,ASIC、FPGA或ACAP,用于新输入数据的"推理"处理。大多数初创公司明智地决定专注于推理处理,而不是训练市场,避开挑战英伟达。

一种新的软件方法,即软件通过迭代学习过程创建“软件”(又称“模型”),需要超级计算性能。为了使这个问题更具挑战性,这些网络模型的规模呈指数级增长,每3.5个月翻一番,从而对性能的需求不断提高。因此,现在有100多家公司正在开发新的体系结构,以提高性能并降低计算成本。但是,他们的工作量很大。英特尔Naveen Rao指出,要实现每年所需的10倍改进,架构,芯片,互连,软件和封装方面都需要2倍的进步。

图1:IntelNaveen Rao表示,处理不断增加的模型复杂性所需的计算能力每年需要提高10倍。

观察#1:领导者很难被超越

初创企业可以并且将会发明出新颖架构,并在性能上击败老牌公司。但是它们仍需要与大型客户建立合作伙伴关系才能将这些技术大规模推向市场。尽管丰富的体系结构方法令人惊奇,但硬件和必备软件的开发速度都慢得令人沮丧。一年前,数十家创业公司在峰会上用PowerPoint展示了他们的计划。今年,数十家创业公司展示了更新的PowerPoint。但是,硬件在哪里?

事实上,自上次峰会以来,几乎没有新的芯片投入批量生产。高通的Snapdragon 855和阿里巴巴的含光800是个例外;Snapdragon当然是一款移动SoC,而含光只供阿里巴巴内部使用。在某种程度上,延迟的部分原因是这种材料比它最初看起来要难得多(不是所有的芯片吗?)。但我们也要现实一点:20、50甚至100名工程师不会排除NVIDIA,Google,Xilinx,Microsoft,Amazon AWS和Intel等公司。他们可以创新出令人惊叹的新架构,但执行是工程学,而不是艺术。尽管许多人可以使用很多TOPS来构建快速的芯片,但它将“吸引”研究人员,工程师,大学教授,互联网数据中心和社交网络公司,将这些TOPS转变为可用的性能,并为这些新芯片构建和优化模型。

以色列初创公司Habana Labs就是一个很好的例子。Habana在首届AI HW Summit峰会上推出了其首款令人印象深刻的芯片Goya,用于数据中心推理处理。然而,整整一年过去了,尽管Goya的性能非常出色,功耗非常低,但它并没有得到市场的认可。这并不是因为Goya不能正常工作,而是因为"故事的其余部分"需要花费一些时间和精力才能完成。

另一个例子是英特尔的Nervana神经网络处理器。即使有了创新的设计和世界一流的工程团队,该芯片在经历了3年的工作后被搁置。大约一年前,英特尔明智地选择了回到最初,并收集了更多的经验和客户反馈,以弄清楚它如何与NVIDIA已有3年历史的V100 TensorCore技术(仍是业界最快的AI芯片)竞争。与初创公司不同的是,英特尔可以耐心等待,直到它能够赢得胜利:英特尔的Nervana处理器(NNP-T和NNP-I)现在预计将在今年晚些时候提供样品。但是,NVIDIA也并没有停滞不前——我们应该在不久的将来看到它新的7nm设计(也许在11月的SC19,但更有可能在明年春天的GTC 20。)

展望未来,新芯片的生产部署速度将取决于生态系统投资的深度和广度,以及芯片本身的完成程度。请记住,尽管数据中心正在拥抱异构性,但他们更喜欢我所说的同类异构性-选择数量最少的芯片体系结构,以覆盖最广泛的工作负载。否则,由于碎片化的计算领域利用率低,并且管理成本高昂,这样做将无利可图的。

观察#2:有许多途径可以提高性能

当我在峰会上聆听演讲者的演讲时,他们所描绘的丰富的创新景观让我感到惊讶。除了使用较低的精度、张量核和Mac阵列(乘法累加核心)之外,这里还有几个亮点。顺便说一下,这些都不是正交方法。例如,基于奥斯汀的Mythic公司正在使用闪存阵列进行模拟脉冲神经网络的内存计算。

图2:为寻找更快更节能的DNN处理器而进行的一些创新的简短列表。有些创新,比如量子计算,需要几年时间才能实现。这些体系结构有两个主要类别:冯·诺依曼(Von Neuman)的大规模并行设计使用代码(内核)来处理数字计算机传统领域中的矩阵运算(先执行,再执行……)。更激进的方法通常是将计算和内存融合在一个芯片上。或者使用组成神经网络权重和激活的数字表示,或者或者使用更类似于人脑生物学功能的模拟技术。模拟技术的风险较高,但可能有很大的前景。

许多数字内存设计都使用数据流计算架构,包括Cerebras和Xilinx Versal,在这些架构中,AI核心被嵌入带芯片存储器的结构中,这些存储器将激活连接到后续的网络层或从后续的网络层传输。要使这些设计在推理中运行良好,玩家需要开发自定义编译器技术来优化网络,修整网络中未使用的部分,并消除零乘(当然,这里的答案是零)。

图3:一个有用且简单的分类法,可以帮助您正确看待公司和架构风格,尽管这忽略了FPGA。别误会,这些公司中的大多数,无论大小,都会提供一些非常出色的设计。不过,请记住,一个新颖的DSA设备构建有用的可扩展解决方案所需的时间和投资规模。为了正确看待这项投资,我怀疑NVIDIA每年花费数亿美元来在全球范围内促进其芯片上AI研究与开发的创新。没有初创公司能与之相抗衡,因此他们需要通过一些设计上的巨大胜利来帮助他们跨越这个鸿沟。

观察#3:NVIDIA仍然领先

NVIDIA公司数据中心业务部副总裁兼总经理伊恩·巴克(Ian Buck)是这次活动的最后一位演讲者。他介绍道,NVIDIA公司通过其Saturn V超级计算机(在500强排行榜上名列第22位)支持的更快的软件和DNN研究,在扩展其推理技术方面取得了进展。Buck指出设计胜出的理由,包括一些知名度和广泛的用例。

图4:NVIDIA能够展示出12家采用GPU进行推断的公司,以及所有主要的云供应商。

为了帮助推动GPU上的推理应用,NVIDIA公司宣布推出TensorRT软件第6版,该软件包括一个优化器和运行时支持,可在经过训练的神经网络上部署经过训练的神经网络,以对各种NVIDIA硬件进行推理处理。它支持99美元的Jetson用于嵌入式处理,Xavier用于自动驾驶汽车,Turing T4用于数据中心应用等。

其次,亚马逊AWS宣布支持NVIDIA TensorCore T4 GPU,这是一种75瓦的PCIe卡,可以支持复杂的图像,语音,翻译和建议的复杂推理处理。NVIDIA T4将成为Habana Labs等初创公司和Intel Nervana等老牌公司的共同比较目标。虽然我认为新的芯片会带来出色的性能指标,但NVIDIA公司将辩称,这些设备在云中的实用性将取决于可用软件的数量以及能否在这些加速器上运行各种模型的用户群。

最终,NVIDIA证明了GPU可以在适当的位置不断发展(与许多初创公司所说的相反),它宣布了用于语言处理的83亿参数Megatron-LM变压器网络。这是使用512个GPU在NVIDIA Saturn V上开发的,这也显示了拥有自己的AI超级计算机时可以做什么。请注意,根据mlPerf基准测试,NVIDIA在短短7个月内也将其现有V100 GPU的性能提高了一倍。

有些人仍然认为推断是针对轻量级的。但NVIDIA公司表明,现代推理用例需要实时延迟的多个模型来满足用户的期望,20-30个容器协作回答一个简单的口头查询

图5:本幻灯片描述了回答简单口头查询的工作流程

结论

即将到来的寒武纪特定领域架构爆炸令人兴奋,但是它仍然处于“很快就会出现在您附近的服务器上”的阶段中。当大多数初创公司开始发展人工智能领域时,寒武纪就拥有了很多潜在客户,例如Google,Amazon、 AWS百度阿里巴巴都将有自己的设计投入生产。此外,大型半导体供应商将准备使用新的硅材料来处理更大的网络(如Megatron-LM)或节能的推理设计。

这并不意味着初创公司应该简单地放弃并将其资本返还给投资者,但是这些初创公司将有很高的门槛,而且利润率很高。否则,他们将需要瞄准利基市场,在这些市场中他们可以以更高的能效和更低的价格获胜。

当然,他们的另一个选择是做大,或者回家,就像Cerebras最近在Hot Chips上发布的Wafer-Scale AI Engine。然而,这不是我推荐给胆小的人的方法。我期待看到特定领域的体系结构进一步发展。

半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业AI芯片
1
相关数据
AWS机构

亚马逊网络服务系统(英语:Amazon Web Services,缩写为AWS),由亚马逊公司所创建的云计算平台,提供许多远程Web服务。Amazon EC2与Amazon S3都架构在这个平台上。在2002年7月首次公开运作,提供其他网站及客户端(client-side)的服务。截至2007年7月,亚马逊公司宣称已经有330,000名开发者,曾经登录过这项服务。

相关技术
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
高通机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

寒武纪机构

寒武纪科技成立于2016年3月,是全球智能芯片领域的先行者,宗旨是打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。公司创始人、首席执行官陈天石教授,在处理器架构和人工智能领域深耕十余年,是国内外学术界享有盛誉的杰出青年科学家,曾获国家自然科学基金委员会“优青”、CCF-Intel青年学者奖、中国计算机学会优秀博士论文奖等荣誉。团队骨干成员均毕业于国内顶尖高校,具有丰富的芯片设计开发经验和人工智能研究经验,从事相关领域研发的平均时间达七年以上。寒武纪科技是全球第一个成功流片并拥有成熟产品的智能芯片公司,拥有终端和服务器两条产品线。2016年推出的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越CPU和GPU,与特斯拉增强型自动辅助驾驶、IBM Watson等国内外新兴信息技术的杰出代表同时入选第三届世界互联网大会评选的十五项“世界互联网领先科技成果”。目前公司与智能产业的各大上下游企业建立了良好的合作关系。在人工智能大爆发的前夜,寒武纪科技的光荣使命是引领人类社会从信息时代迈向智能时代,做支撑智能时代的伟大芯片公司。

http://www.cambricon.com/
冯·诺依曼人物

约翰·冯·诺伊曼(德语:John von Neumann,1903年12月28日-1957年2月8日),原名诺依曼·亚诺什·拉约什(匈牙利语:Neumann János Lajos),出生于匈牙利的美国籍犹太人数学家,现代电子计算机与博弈论的重要创始人,在泛函分析、遍历理论、几何学、拓扑学和数值分析等众多数学领域及计算机学、量子力学和经济学中都有重大贡献。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

脉冲神经网络技术

第三代神经网络,脉冲神经网络(Spiking Neural Network,SNN),旨在弥合神经科学和机器学习之间的差距,使用最拟合生物神经元机制的模型来进行计算。脉冲神经网络与目前流行的神经网络和机器学习方法有着根本上的不同。SNN 使用脉冲——这是一种发生在时间点上的离散事件——而非常见的连续值。每个峰值由代表生物过程的微分方程表示出来,其中最重要的是神经元的膜电位。本质上,一旦神经元达到了某一电位,脉冲就会出现,随后达到电位的神经元会被重置。对此,最常见的模型是 Integrate-And-Fire(LIF)模型。此外,SNN 通常是稀疏连接的,并会利用特殊的网络拓扑。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
量子计算技术

量子计算结合了过去半个世纪以来两个最大的技术变革:信息技术和量子力学。如果我们使用量子力学的规则替换二进制逻辑来计算,某些难以攻克的计算任务将得到解决。追求通用量子计算机的一个重要目标是确定当前经典计算机无法承载的最小复杂度的计算任务。该交叉点被称为「量子霸权」边界,是在通向更强大和有用的计算技术的关键一步。

流计算技术

Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理,比如map、reduce、join和window。

推荐文章
暂无评论
暂无评论~