高通发布独立AI芯片,抢食推理加速器市场

卷积神经网络和其他人工智能技术在过去十年中对处理器领域产生了重要影响。人工智能也成为了市场的流行语、催化剂和所有处理器制造商所追求的东西,所有的软件供应商也都渴望投资在其上面开发新功能。

在十年前,这是一个完全没有存在的市场,但在过去短短几年中,AI就成为研究和收入的中心,并且已经有一些处理器供应商已经在上面建立了一个小型帝国。

但可以看到,人工智能仍处于早期阶段,市场尚未找到上限; 数据中心也在继续批量购买AI加速器,技术的部署也越来越多地在消费者处理器中出现。在这个许多人仍在争夺的市场中,全球的处理器厂商正在试图弄清楚它们如何才能成为主导力量。换句话说,人工智能淘金热正在全面展开,现在每个人都在排队出售“镐”。

人工智能淘金热引起了科技界各个角落的兴趣,包括GPU、CPU、FPGA和定制ASIC等市场的玩家都对其趋之若慕。因为需要在边缘进行推理、在云端进行推理、在云中进行训练、在各个级别进行AI处理,这就要求有各种处理器提供不同服务。但在人工智能的所有这些方面,最有利可图的市场是这个层次结构的顶端市场——数据中心。由于运营商希望购买大量的分立处理器,因此数据中心市场是可扩展性和昂贵的,并且仍在实现跨越式发展。

高通,现在正在成为这个市场的一个全新搅局者。

今天上午,在旧金山举办的第一届“AI Day”上,移动世界的“800磅大猩猩”宣布他们正以激进的方式进入人工智能加速器市场。在他们的活动中,高通公布了他们的第一款独立AI处理器——Qualcomm Cloud AI 100系列。这是公司专为人工智能市场设计,并以高通公司广泛的软件堆栈为后盾的产品,该公司正希望将自己打造成为“饥渴”的人工智能推理加速器市场的主要供应商。

从今天公布看来,高通公司今天宣布的内容几乎更像是一个预告片,而不是一个适当的揭示 ,更不是技术披露。根据规划,Cloud AI 100系列加速器是高通公司计划在2020年内推出的产品,但样品将在今年晚些时候推出。简而言之,现在仍然是好年景,因此高通公司宣布了他们的努力的成果及其背后的原因,而不是基础技术。高通也同时也披露了他们在AI市场上,是如何与英伟达和Intel这样的竞争对手差异化竞争的。

Qualcomm Cloud AI 100架构:专用推理ASIC

那么高通究竟在做什么呢?简而言之,他们正在为数据中心市场开发一系列AI推理加速器。这虽然不是一个从上到下的计划,但这些加速器将采用各种外形和TDP,以满足数据中心运营商的不同需求。在这个市场中,高通公司希望凭借在市场上提供最高效的推理加速器而获胜。在他们看来,其ASIC性能是远高于目前的GPU和FPGA领跑者。

关于Cloud AI 100系列的架构细节很少,但高通公司给予我们足够的支持。首先,这些新部件将采用7纳米工艺制造,可能是台积电以性能为导向的7纳米HPC工艺。该公司也将提供各种卡,但目前尚不清楚他们是否设计了多个处理器。而且,我们被告知,这系列是一个从头开始的全新设计,而不是Snapdragon 855 AI功能的放大。

虽然高通今天并没有给出关于这个芯片的更多细节,但他们很清晰的表示,这是一个AI推理加速器,而不是AI训练加速器,或者GPU等,这只是一款用来实现神经网络的“预训练”的AI推理芯片。

这是有重要区别的,因为虽然魔鬼在细节中,但从高通公司的声明中我们看到,他们非常强烈地指出这颗芯片的基础架构是人工智能推理ASIC ,类似谷歌的TPU系列,而不是更灵活的处理器。Qualcomm当然远非第一家专门为AI处理而构建ASIC的厂商,但其他AI ASIC要么专注于低端市场,要么留作内部使用(谷歌的TPU再次成为主要的例子),高通公司正在谈论将AI加速器出售给客户以供数据中心使用。而且,相对于竞争对手而言,他们所谈论的内容更像ASIC,而不是类似GPU的设计,每个人都希望2020年在NVIDIA领先和英特尔积极的AI芯片市场中脱颖而出。

Qualcomm的Cloud AI 100处理器设计如此狭隘地专注于AI推理,因此其性能潜力就变得至关重要。在处理器设计范围内,架构师可以灵活平衡效率; 芯片越接近固定功能ASIC,它就越有效。正如GPU如何在CPU头上实现AI性能的巨大飞跃一样,高通希望在GPU头上做同样的事情。

当然,问题在于更具固定功能的AI ASIC正在放弃灵活性。无论是处理新框架,新处理流程还是全新神经网络模型的能力都还有待观察。但高通公司将在这里进行一些重要的权衡,最重要的问题是这些是否是正确的权衡,以及整个市场是否已为数据中心规模的AI ASIC市场做好了充分准备。

同时,高通公司必须解决的另一个技术问题是Cloud AI 100系列是他们第一个专用的AI处理器。不可否认,每个人都必须从某个地方开始,而在Qualcomm的情况下,他们希望将他们在SoC边缘AI的专业知识为数据中心人工智能所用。该公司的旗舰Snapdragon SoC已经成为一股不可忽视的力量,高通公司认为他们在高效设计和信号处理方面的经验将使公司在这方面占据重要地位。

考虑到公司的实力和规模,他们都能够迅速提高产量,但这并没有能帮助他们对抗如NVIDIA和英特尔这个竞争对手,因为这两者可以在台积电或者其内部晶圆厂轻易获得产能,但这让高通公司在与无数追逐人工智能ASIC市场的小型硅谷初创公司的竞争中拥有明显优势。

为什么要追逐数据中心推理市场?

撇开技术因素不谈,高通今日发布的另一个重要因素是,它为何要进军AI推理加速器市场。简而言之,答案就是钱。

对AI推理市场最终规模的预测存在很大差异,但高通相信,到2025年,单是数据中心推理加速器的市场规模就可能达到170亿美元。果真如此的话,那么这将是一个相当大的市场,否则高通将错过这个市场。这个市场将与他们目前芯片制造业务的全部业务相媲美。

同样值得注意的是,这是一个明确的推理市场,而不是整个数据中心推理+训练市场。这是一个重要的区别,因为虽然训练也很重要,但训练的计算需求与推理有很大的不同。虽然可以使用相对较低精度的数据类型(如INT8,有时甚至更低)进行准确的训练,但目前大多数训练需要FP16或更高。这需要一种非常不同类型的芯片,尤其是当我们谈论ASIC,而不是像GPU这样的更通用的东西。

这也倾向于规模:虽然训练一个神经网络需要很多资源,但它只需要做一次。然后,它可以被多次复制到推理加速器的领域。因此,与训练一样重要的是,潜在客户只需要比能够训练的处理器更多的推理加速器。

与此同时,尽管高通没有明确表示,但很明显,高通正寻求拿下市场领导者英伟达,英伟达甚至在早期就已经用AI处理器建立了一个小帝国。目前,英伟达的Tesla T4、P4和P40加速器构成了数据中心AI推理处理器的骨干,事实证明,数据中心的整体收入对英伟达而言是相当有利可图的。因此,即使整个数据中心市场没有像预期的那样增长,它仍然相当有利可图。

高通还必须牢记来自英特尔的威胁,英特尔已经非常公开地表示了自己在AI市场的计划。英特尔有几个不同的AI计划,从低功耗的Movidius加速器到他们最新的Cascade Lake Xeon Scalable CPU。然而,对于高通正在追逐的特定市场,最大的威胁可能是英特尔即将推出的Xe GPU,这是英特尔最近重建的GPU部门的产品。与高通一样,英特尔也在觊觎英伟达,因此在AI推理市场正在展开一场竞争,所有巨头都不希望输掉这场竞争。

冲过终点线

撇开高通的雄心不谈,在未来12个月左右,高通的重点将是争取首批客户。要做到这一点,该公司必须表明,它对Cloud AI 100系列所做的事情是认真的,它可以在硬件上实现,而且可以与竞争对手的软件生态系统的易用性相媲美。所有这些都不容易,这就是为什么高通需要现在就开始,远远早于商业出货量开始的原因。

尽管高通多年来一直梦想着服务器和数据中心市场,但用“野心过大”来形容这些工作或许是最礼貌的说法。这方面的一个例子是高通基于ARM的Centriq系列服务器CPU。该公司在2017年大张旗鼓地推出了Centriq系列服务器CPU,结果整个项目在一年内夭折。撇开Centriq的优点不谈,高通仍是一家基本上只专注于芯片制造方面的移动处理器和调制解调器的公司。因此,为了让数据中心运营商投资Cloud AI系列,高通不仅需要为第一代制定一个伟大的计划,还需要为之后的几代制定一个计划。

这里的结果是,在推理加速器这个年轻且不断增长的市场中,数据中心运营商更愿意尝试新的处理器,而不是CPU。因此,没有理由相信Cloud AI 100系列不能至少在一开始就获得一定的成功。但这将取决于高通能否说服仍然谨慎的数据中心运营商,高通的产品是值得投资如此多的资源。

与此对应的是软件方面。迄今为止,英伟达的成功在很大程度上得益于其AI软件生态系统——这本身就是其已有10年历史的CUDA生态系统的扩展——这让GPU竞争对手AMD苦恼了一段时间。对高通来说,好消息是最流行的框架、runtimes和工具已经建立;TensorFlow、Caffe2和ONNX是最大的目标,高通知道这一点。这就是为什么高通承诺将立即推出一个广泛的软件堆栈,因为只有这样才行。但高通必须快速跟上进度,因为他们的软件堆栈实际工作的好坏可能决定整个项目的成败。高通需要提供良好的硬件和软件才能在此取得成功。

但至少就目前而言,高通今天的发布是一次预告片。高通制定了一项雄心勃勃的计划,要打入不断增长的AI推理加速器市场,并提供一种与公开市场上任何其他产品都不同的处理器。虽然从这里到那里将会是一个挑战,但是作为处理器世界的巨头之一,高通在资金和工程资源方面都是最有能力的。因此,高通对推理加速器市场的渴望程度,与高通为其开发处理器的能力同样重要,以及他们在多大程度上可以避免之前的服务器处理器计划所犯的错误。

然而,最重要的是,高通不会轻松占领推理加速器市场:他们将不得不为之奋斗。这是英伟达将要失去的市场,英特尔也在关注着它,更不用说那些GPU厂商、FPGA厂商和其他ASIC厂商了。对于一个新兴技术来说,这还是一个年轻的市场,所有这些都可能会迅速起起落落。因此,尽管距离2020年还有近一年的时间,但它正迅速成为AI加速器市场的第一场大战。

半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业Cloud AI 100AI芯片高通
1
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
高通机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

推荐文章
暂无评论
暂无评论~