徐凌杰作者

AI芯片的长征之路:挑战与机遇

前言: 笔者有幸受邀在六月初北京举行的首届亚洲AI硬件峰会(AI Hardware Summit Asia)上发表了开幕主题演讲,与全世界的AI硬件专家分享了我对行业的一些看法和想法。演讲以英文形式进行,原文记录在LinkedIn之后收到多位业内人士的推荐,例如Codeplay的CEO Andrew Richards就留言说,“This is a great article. Should be read by any AI chip company. Don't write your own AI framework and don't expect the whole AI ecosystem to switch overnight. Very true.” 特此感谢《半导体行业观察》协助合作翻译成中文,有机会让此文与更广大的读者见面。以下为主题演讲的全文记录。

早上好,女士们先生们,

欢迎来到中国,欢迎来到北京!

感谢Kisaco Research的邀请,非常荣幸能够在首届亚洲AI硬件峰会上发表开幕主题演讲。

当我在今年早些时候确定了“AI芯片的长征之路”这个题目的时候,我并没有预料到“长征”这个词现在会变得如此热门。纵观国际上最近发生的有关技术和非技术的事件,我认为现在有必要反思一下这些变化将如何重塑我们未来的世界。

很多人认为AI将从根本上改变每个人的生活,有些人甚至把AI比作“第四次工业革命”。我认为这种说法一点也不夸张,我也相信AI的进步最终会对新的世界秩序和格局产生重大影响。

计算能力是推动AI产业发展的关键动力之一,在过去几年我们已经看到了其非常迅猛的发展势头。然而,我认为我们还需要很长一段时间才能充分理解我们对此的真实愿景,并开发出各种能够真正满足我们需求的AI芯片。因此,我想在这里和大家讨论并分享一些想法,我们该如何应对当前的局面、克服挑战并探索新机遇。

在我们谈论AI芯片之前,我认为有必要回答这样一个问题:为什么现在是合适的时机?

想必这里的绝大多数观众都非常熟悉摩尔定律的即将终结:

  • 首先,现如今单个晶体管的成本不再随着更先进的制程而下降;

  • 这导致CPU每年的性价比改进率从本世纪初的48%下降到最近的个位数;

  • 更糟糕的是,拥有尖端制造能力的晶圆厂数量也从20年前的25家减少到当今的寥寥数家;

  • 由于良性循环无法持续,移到新制程的成本变得越来越高。

为了进一步论证这一趋势,我们看到从2016年开始,英特尔的固定成本已经开始超过了其可变制造成本部分,也因此放弃了长期以来的Tick-Tock战略,转而采用三步走的“制程-架构-优化” —— 这是为了延长固定成本摊薄周期而做出的必要妥协。

这种变革的影响是如此之大,以至于像你和我这样大多数普通人都能深切感受到通用计算的进步在放缓。正如我在幻灯片上所说的无形之手,它的本质是市场的供求关系。当这里的供应,即CPU的性能提升增长慢于对计算能力的需求时,这会造成数据中心实质上的“赤字”——对于像阿里巴巴这样的公司来说,云计算对计算能力有着巨大且持续增长的海量需求,那么对我们来说只有两条路可走:要么再去建更多的数据中心并购买更多的CPU服务器,要么去寻求那些更强大、更经济、更高效的替代品。

这就是为什么我想说,摩尔定律的放缓和通用计算的衰落实际上更像是一个经济问题,而不仅仅是一个单纯的技术问题(注:见后通用芯片时代:专用芯片兴起背后的经济学)。专用硬件的兴起将能很大程度上缓解数据中心的”赤字“问题。

如果说智能手机是时代的必然,但iPhone的成功却是不可预测的;就像一片落叶,我们不知道风会把它吹到哪里,但我们知道最终它会落到地面上。

与许多大型互联网公司一样,AI在阿里巴巴遍地开花。近年来,无论是内部应用还是在阿里云上,我们都看到了对异构计算资源(主要是GPU)的强烈需求,而这种趋势也将会在未来相当一段时间内继续持续下去。但是在这里我们不禁要问,如果AI加速器是历史的必然,那GPU就是必然的选择么?

GPU很强大也很好用,但它也不是完美的:

  • 首先,它不是专门针对神经网络设计的,所以大量的无用面积(dark silicon)被浪费掉了;

  • 它目前既不支持物理资源切区也不支持真正的多租户,因此没有太大的灵活性用于提高云的利用率和实现真正的弹性;

  • GPU的驱动程序更像是一个黑匣子,最终用户缺乏主导权;

  • 最后但同样重要的是,无论皮衣教主告诉我们多少次“买的越多,省的越多”,GPU仍然价格不菲!

虽然GPU在生态建设方面远远领先于其他所有人,但我并不认为GPU是AI加速的最终答案和唯一选择,尤其是在推理领域,AI加速有许多利基市场需要专业化的服务。同样地,这个世界也需要更多的多样性。

正如我们看到的,AI在各行各业生根发芽并茁壮成长,那些真正在乎自己软件的人也正在考虑拥有自己的硬件加速器。

我在此要祝贺这里所有的AI芯片初创公司。你们在过去两年里突飞猛进,总共筹集了超过25亿美元的投资,非常厉害!来,让我们为自己先鼓个掌!

有幸在过去的两年里有机会和你们中的一部分人有过深入交流并有机会合作,很高兴能成为你们初创项目前进的一部分。然而,每一个派对都有结束的时候,随着帷幕逐渐落下,我不得不说,冬天已经要来了。

我说冬天要来了,有这么几个原因:

  • 首先,世界头两大经济体仍然无法达成表面上的共识,这对两个国家的诸多公司来说都是利空:中国公司将更难获得最新和最好的芯片设计技术;而另一方面,美国公司也有失去中国市场的巨大风险。这显然对双方都是不利的,也无助于缓解我们刚刚讨论过的数据中心“赤字”问题;

  • 在过去的几十年里,计算技术的进步占到了美国非农生产率增长的近一半之多。通用计算的放缓已经是坏消息,而数据中心“赤字”的扩大肯定会影响长期经济增长,并可能使未来的融资变得更加困难;

  • 即使我们把经济问题放在一边,只谈技术,我看到相当多的公司,他们的产品老实说只适合演示,而缺乏商业化的能力。有些只能跑一小部分的应用demo,而那些也往往缺乏对最终用户可感知的差异点;

  • 而另一个坏消息是,AI应用的创新脚步也在放缓,这将会影响AI硬件的竞争态势。我们可以看到GPU也在快速发展,要赶上这个移动的目标会变得愈发吃力。台下许多公司即将推出新一代AI硬件产品,我认为2019年对你们中的一些人来说可能是期中考试,对另外一些更像是期末大考

我夫人和我说过她第一天上法学院的故事——院长要求学生环顾四周看看谁坐在他们旁边,然后说,“你没必要记住这些人,这并不重要,因为你现在的许多邻座无法熬过未来的3年”。这是生活展现给我们真实的一面。我也真心希望你们中的大多数人明年还能有机会参加今天这个峰会。

这听了是不是很令人沮丧,不是吗?

在中国,当我们谈到困难的时候,我们总是说“危机背后往往蕴藏机遇”,这也就是为什么我们创造了“危机”这个词。就像英语里说的,“冬天来了,春天还会远吗”?

我想,我对AI芯片行业总体是乐观的,而其中最重要的因素在我看来就是中国(至少对中国公司来说)。

  • 首先是资本的力量,尤其是当AI和半导体已经成为了这个国家高优先级发展战略的背景下。虽然这可能不是发展一个行业最经济有效的方式,但我们可以放心,最终一定会有好的结果产生。我们将看到这个领域更多的独角兽从各种渠道获得更多的投资,他们自然会变得更强;

  • 其次,中国拥有比世界上其他大多数国家更多的AI适用场景——从电子商务到移动支付,我们可以看到,只要有足够的市场需求就会有相应的方案来满足需求,而中国已在这些新兴应用上早已领跑全球。同样地,这还是市场供需关系和看不见的手的力量。现如今,我们讨论计算机体系结构的黄金时代,为特定领域而做专用设计(Domain Specific Design)是实现差异化的重要手段。AI将继续以用例和场景驱动的形式发展。只要有足够的需求,AI和AI芯片在中国都将会有很好的发展前景;

  • 此外,市场规模巨大,大到足以养活许多公司,以至于他们可以搭建一个完整的生态系统甚至是供应链。以智慧城市为例,安防摄像头将为边缘和数据中心的AI加速系统带来大量数据和智能,这是一个巨大的市场。

总而言之,我非常看好中国的机会。我们有理由相信中国将继续在AI领域发挥重要作用,AI芯片将成为中国新兴半导体产业的主导因素和驱动力。通用计算的放缓为中国提供了一个巨大的历史机遇。

那么,我们如何抓住这些机会呢?当我和你们中的许多人讨论你们的产品时,总是被问到我是否能给你们一些建议。那今天,我想提三个建议:

  • 我的第一个建议是软件。在你们问我要建议之后最喜欢问的问题是,“你有多少软件工程师?”。我们敞开来说,对于大多数的AI芯片来说,就硬件设计的相对复杂性而言,它其实并没有特别的难。在我看来,很多公司,包括风险投资公司,过于注重硬件能力,而对软件往往投入不足。我想看到你们能招聘更多的软件工程师,然后我想我们就有了可以讨论软硬件协同设计的基础。

  • 我的第二条建议也是关于软件的。当今世界垂直集成是一个趋势,单独做好自己的软件是不够的,要做好被集成的准备。软件本质上是你和你的客户之间的界面和纽带,更好的AI硬件产品在实现基础赋能之外还需要能为客户提供解决方案。如果你想扩大潜在的客户群体,那真应该认真考虑与像阿里云这样的云服务提供商合作(如果还没有的话)。

  • 或许你也猜到了,我的第三条建议还是软件。我想敦促你思考如何在软件方面进行差异化,并让这些差异能让你的客户所感知,比如如何实现多租户,如何做一站式快速上线方案,如何同时在数据中心和边缘轻松部署。

我认为如何强调软件的重要性都不为过,对于软件的认知关系到你如何定位你的产品和你的公司。

说到定位,我们来谈一下战略的本质。这是Michael Porter所作的一张著名图表(我在商学院里最喜欢的图表之一),我认为它对当今AI芯片的竞争版图也非常适用。

一个公司可以针对多个细分市场做开发,但归纳起来其实只有两种真正的竞争优势:1)比竞争对手做到成本更低,2)或实现差异化

让我试着解释一下这个战略的本质并用例子来说明——比如说有公司来找我,“我的芯片具有非常好的perf/watt能效比,这就是我针对NVIDIA GPU的优势”。如果我们说同样的一块75瓦PCIe板卡形态的产品,那你的产品实际上就是在单卡上能处理更多工作,比如用1张卡替换2个GPU,这只是成本上的节省。如果我们从另外一个角度来看,比如你的芯片只有几瓦却能与一个75W的GPU性能等效,这样你就可以在一个新的维度上进行竞争了。继续用智慧城市场景作为例子,你现在可以用一个小型的机顶盒大小的设备替换掉一个大服务器,这样可以让AI变得更轻,更容易在在边缘场景落地,而我将这样的方案称之为相对于GPU的差异化

NVIDIA的GPU在软件生态方面确实走在了前面,这在于先发优势和多年的积累。我不建议你直接在左上角与NVIDIA竞争——这个象限不适用于小公司或新项目。同样地,我不认为你们大多数人或你们的投资者希望你们永远停留在右上角。

我鼓励后来者从特定的细分市场和特定的行业开始发力,并保持专注,这是实现成本效益和差异化的最佳机会。这也是为什么大多数公司从都是从推理芯片开始做,而非训练芯片。

如果过于野心勃勃,那么你可能会浪费宝贵的资源,最终陷入到“卡在中间”的困境中去。我有一个“卡在中间”的例子是那些看似巧妙的可变精度设计,而实际上每个应用对此的要求都是不同的且难以做到通用化。Flexpoint是一个很有意思的想法但最终却失败了——英特尔最终不得不放弃这个方案。遗憾的是,这让英特尔错过了很好的时机,浪费了先发优势。

从这个案例的教训总结一下,我想鼓励你多和你的顾客交流,不要闭门造车。作为一家芯片公司,不要梦想一夜之间就能改变整个软件生态系统。技术可以自下而上,而战略应该自上而下。了解你之所长,再设计与之匹配的战略。

  • 只有与客户交流并共同解决实际问题,你才能发现真正的需求,修复真正的问题,然后再反过来改进迭代你的产品。

  • 另外,因为这是一个2B的业务,请不要把资源分得太散。专心支持你的客户,最终你会得到你想要的回报。

  • 如果你想进入云服务市场,请尽早开始布局,并花费足够的精力将你的软件集成进去。

当了解了需求之后,我也希望你能更大胆一点。

  • 我鼓励你能大胆地去定义你的产品。我看到一些公司有非常扎实的技术,但他们在产品定义和规划方面过于谨慎,只是跟踪GPU或竞争对手。回到战略的本质,如果你只是一个跟随者或者一个GPU的简单替代品,那你只是在低成本而非差异化上竞争。很快,你就会发现很难向你的投资人证明你值得起你现在的估值。请不要浪费大好时机。

  • 我也希望你大胆地尝试新技术,无论是存内计算、类脑还是基于光学的解决方案,如果你能在某个领域达到十倍或者百倍的提升,然后再将产品商业化,那你就有机会脱颖而出,并实现差异化。要么干票大的,要么就回家(Go Big or Go Home)。

  • 大胆也意味着在提供基本的加速能力之外能主动往前一步帮助客户解决实际问题。

这是最好的时代,也是最糟糕的时代。现在是你展示自己潜力的时候,抓住机会筹集更多的钱,为冬天做准备,活下来才有继续战斗的资本。

要彻底解决AI加速的供需问题还需要很长的时间,只要你找到正确的方向,合理地利用你的资源,你就能成功。

我们正处在这样一个时代:优秀的产品可以快速地、非线性地实现增长。云就是你最好的朋友,如果你认为你的产品不错,欢迎来与我们交谈。

对于所有公司来说,AI和AI加速都是一个相对新的领域,我想强调的是,现在正是开始讨论并领导创建新标准的好时机。

AI基准测试(benchmark)是我看到的机遇之一。

我在去年推出了阿里巴巴的AI Matrix benchmark。我们希望我们的benchmark能做到开放和灵活,并且可以让测试评估AI加速器变得简单。它现在已经成为我们评估AI芯片的标准流程的一部分,你们中的许多人正在与我们合作——我也多次明确表示它是你们进入阿里巴巴生态系统的门票。我们的合作伙伴对此非常支持,如果你有兴趣与我们合作,非常欢迎下载试用一下我们网站上的公开版本并向我们提供反馈。

同样有着开放和快速迭代的理念,MLPerf是一个新兴的国际AI benchmark社区。阿里巴巴是早期的参与者,也从一开始就为社区在做贡献。我们正筹划在今年创建一个正式的组织MLCommons,我鼓励所有这里的公司,无论大小,特别是中国公司,参与进来并展现出你的技术能力和领导力。中国是AI应用和AI芯片创新的试验场(playground),要让世界听到你的声音,这样你也有机会参与到重塑世界格局的进程中去。作为MLCommons的董事会成员,我将非常乐意在茶歇期间与你分享更多相关信息。

所以,2019年是令人兴奋的一年,我期待看到更多公司发布新产品,并将AI Matrix和MLPerf结果报告带给我。我非常乐意与你们每一位进行合作。

行胜于言,我想看到你们能成功地做出芯片,亮出产品,show出benchmark的结果。

如果我们把AI芯片的旅程比作慢慢长征,那其中肯定会有起起伏伏。最后,我想以一句诗来结束我今天的演讲——因为我担心翻译会词不达意,所以我在这里直接使用中文。

“雄关漫道真如铁,而今迈步从头越。”

这句诗写于84年前长征路上的关键时刻,我认为它也很好地反映了今天我们所面临的局势。在AI应用和AI芯片的强力推动下,2019年对于中国半导体行业而言很可能就是一个新的起点。

总结一下:

  • AI芯片是历史的必然;

  • 这更是一个经济学问题,而不仅仅是一个技术问题;

  • 我们处在一个令人困惑的时刻,有必要未雨绸缪;

  • 无论如何,我看好中国的机会;

  • 我希望AI硬件公司能重新审视你们的策略,并能保持专注;

  • 对于中国的公司而言,你们应该振作起来,因为这很可能是一个引爆点 - 你不仅有很大的潜力和空间来引领创新,而且还能重塑世界的新秩序。

谢谢!

徐凌杰

阿里巴巴集团阿里云智能事业群总监。他的团队目前专注于AI架构与应用的软硬件协同。在加入阿里巴巴之前,他曾在NVIDIA、AMD和三星担任过多个GPU项目的高级管理和架构师的职位。

半导体行业观察
半导体行业观察

最有深度的半导体新媒体,实时、专业、原创、深度,30万半导体精英关注!专注观察全球半导体最新资讯、技术前沿、发展趋势。

产业AI芯片
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

摩尔定律技术

摩尔定律是由英特尔创始人之一戈登·摩尔提出来的。其内容为:积体电路上可容纳的电晶体数目,约每隔两年便会增加一倍;经常被引用的“18个月”,是由英特尔首席执行官大卫·豪斯所说:预计18个月会将芯片的性能提高一倍。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
三星机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业全球500强,三星集团包括众多的国际下属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保险、雷诺三星汽车等,业务涉及电子、金融、机械、化学等众多领域。 三星集团成立于1938年,由李秉喆创办。三星集团是家族企业,李氏家族世袭,旗下各个三星产业均为家族产业,并由家族中的其他成员管理,集团领导人已传至 李氏第三代,李健熙为现任集团会长,其子李在镕任三星电子副会长。

推荐文章
暂无评论
暂无评论~