去年10月份帮着同事做了第一个AI芯片的项目,到现在为止,已经深度参与了三个AI芯片相关的Deal,感觉到自己对这个行业的认知已经可以尝试着,上升到一个投资逻辑的层面了。
1. AI芯片是什么
2. AI芯片投资人应该具有哪些知识储备
3. AI芯片的竞争格局
4. AI芯片的发展趋势
5. AI芯片的投资逻辑
AI芯片的出现本身是在适应“新的计算范式”的出现:AI芯片又称为加速卡:其“加速”二字是指,随着新的计算范式出现,原有的基于串行计算的CPU规则不能很快的完成AI计算,因此将简单并重复的运算抽离出来,通过CPU+AI加速卡的形式来完成计算。AI芯片所负责的计算具有较简单、重复、计算量大和参数量大的特点,其背后是两个原因:运算的处理对象往往非结构化:从处理对象上来看,AI芯片处理的内容往往是非结构化数据,例如图像、视频、音频等,相比结构化数据,这部分数据并非按行存储,很难通过预编程的方式来得到处理结果,因此一般通过极大量的数据对模型进行训练,进而得到模型结果。AI的技术路线逐渐趋于统计学:由于实际问题和场景的规则通常十分复杂,基于统计的AI模型相比基于规则的AI模型,逐步体现出了优势,也带来了大量的简单的、统计学概念上的运算过程。因此,目前的硬件架构通常是CPU+AI芯片,即CPU用于进程的管理,而将可加速的计算部分分给AI芯片来进行加速计算。AI芯片通常按照应用场景和计算类型来划分,根据两个维度划分成下图的矩阵类型:
训练和推理有所区别,但有时候会在同一颗芯片上完成:简单来说,训练过程是指在已有数据中学习,获得某些能力的过程;而推断过程则是指对新的数据,使用这些能力完成特定任务(比如分类、识别等)。但是实际上我们可以看出,训练和推理芯片的划分方式其实是基于一个假设:即训练完成的模型不需要进一步的迭代改进,但是在增强学习、在线学习这样的技术中,模型的迭代和应用是交织在一起的,训练和推理很难区分开,因此我们会看到某些厂商推出的芯片会同时支持训练和推理功能。训练和推理对于功耗和通用性的要求不同:我们观察到,训练过程基本是在云端,而推理过程既存在于云端,也存在于边缘端,这背后是源于不同的应用场景对功耗和通用性的要求不同。功耗:芯片用于云端意味着它的供电是来源于总线,而不用受到边缘端设备电池容量的影响,当然出于能耗考虑,云端芯片功耗也不能太高。我选了几个代表性的芯片列示在下面,可以看出,云端芯片的功耗会更高;通用性:云端芯片会承担更丰富的职能,因此通用性要求会更高,而芯片越靠近边缘侧,其对应的应用越细分,对芯片的通用性要求越低。
总的来说,云侧 AI处理主要强调精度、处理能力、内存容量和带宽 ;边缘设备中的 AI 处理则主要关注功耗、响应时间、体积、成本和隐私安全等问题。而云端AI芯片通常是和边缘端AI芯片协作工作,因此会根据不同的场景,做功耗和性能之间的Tradeoff:以智慧安防为例,早期摄像头是不具备边缘侧AI功能的,要传输视频流到云端进行处理,而目前比较先进的方法是先在边缘侧通过AI芯片做视频的图片化和结构化处理,再上传到云端进行进一步处理,降低了带宽要求。未来,随着应用场景的进一步成熟,其工作流会被进一步拆分,可能会有更多的功能在边缘侧实现,或者分布在多个边缘侧实现,以实现降低成本的目的。我认为,AI芯片投资人应该具有的知识储备分为三个部分:
做这相关的背景知识储备,一方面是为了识别不同应用场景所对应的芯片解决方案,另一方面也是可以更准确的找到某家目标公司产品的对标芯片方案。做这方面的背景知识储备,一方面是专业性的知识积累,以便和创业者聊到一块去,另一方面是要对不同类型的芯片企业的部门职能配置有一个判定标准。重点是厘清几个概念之间的区别与关系:CPU与GPU;SOC和MCU;数字芯片和模拟芯片;ASIC和FPGA;指令集与架构;IP核与EDA。这里可能看起来内容有些多,在2.1的结尾,我画了一张芯片类型的思维导图,可以直接翻下去看。CPU是我们非常熟悉的概念,全称为中央处理器(Central Processing Unit),功能是解释计算机的指令和处理软件中的数据;而GPU全称为图形处理器(Graphic Processing Unit),最早是中央处理器的一个单元,后来随着NVIDIA GeForce 256的发布,开始将图形运算从CPU中单独剥离出来,以提高运行效率。随着AI的发展,由于AI运算和图形运算有较大的相似性,因此GPU也被拿来做AI算法的训练和推理。CPU和GPU的区别本质上在于其被设计出来的目的不同:CPU作为一台计算机/服务器的核心处理单元,需要解决极强的通用性问题,因此需要兼容多种数据类型,并且由于CPU需要大量的逻辑判断,带来了很多的分支处理和中断处理,使得CPU内部的结构十分复杂;而GPU面对的则是大量不相关、类型高度统一的大规模数据,适用于大规模并发计算。因此,CPU和GPU本身的结构设计就有很大不同:GPU相比CPU,逻辑控制非常简单,设计了大量的并行计算单元,并且大大减少了缓存。缓存在CPU中主要用于减少处理器访问内存所需平均时间,而GPU中的缓存主要用于多线程控制,如果很多线程需要访问同一个相同的数据,GPU会将其合并到缓存中。总而言之,CPU和GPU设计的目的不同,因此结构和应用场景也不同,CPU更具通用性,GPU在特定需求下(需要并行、计算密集型的程序)则具有压倒性优势。还是以CPU为基础来分析:CPU本身是一个处理器(Processing Unit),因此并不能单独用于某一个需求场景,CPU需要搭配存储、接口等才能构成一个完整的计算机。因此,围绕着处理器,集成的单元不同,构成的芯片也不同,常见的概念有MPU、MCU和SoC;MPU和CPU早年概念区别明显,但是现在趋于一致:二者的区别在名称中可以窥见端倪,MPU是(Micro Processing Unit),CPU是(Central Processing Unit),因此,MPU的概念在刚提出时,是对应着“Micro”的概念的,因为当时的计算机还有大型机、中型机、微型机的区分,因此一开始,MPU是代表着性能较弱、用于“Micro”场景的CPU,但是“Micro”这一点,随着计算机技术和MPU性能的发展,逐渐淡化;当前MPU可以认为是包含了一颗CPU和其他协处理器的一个处理单元,MPU和CPU的区别也在逐渐弱化,例如我们熟知的Intel 酷睿i7,既是MPU,也是CPU;MCU专用于控制,是经典的冯诺依曼架构,但性能较弱:至于MCU的概念,MCU全称是Micro Controller Unit,中文称之为微控制单元,当然也有人称之为单片机(单片微型计算机,Single Chip Microcomputer ),顾名思义,MCU的主要应用场景是控制,既然MCU是面向控制这个应用场景的,他就不能只包含CPU,根据MCU底层的冯诺依曼架构,其包含了嵌入式系统必须的四个部分:处理器、存储器、计数器、通信端口;但是,MCU并不是面向所有的场景,主要是Controller,因此MCU里包含的处理器性能是相对较弱的。SOC是一个高集成度的概念:SoC全称System on a Chip,因此中文可以成为片上系统,也可以称之为系统级芯片。顾名思义,SoC是一个高集成度的概念,相当于在一颗芯片上实现了整个电子系统的功能,因此通常一个SoC在硬件层面应该包括微控制器、DSP、存储器、数模转换器、计时器、各类接口等,而软件层面则是包含对这些硬件的控制。SoC并不是一个unit的概念,而是System的概念,而完整性和高集成度通常意味着低通用性,因为如果某些元件不是被集成在芯片上,而是可插拔的话,那这个元件就可以根据应用场景的需要自由更换。SOC的各个硬件单元由于被都采用芯片级集成的方案,其通用性大大降低,适用于定制化或者及其标准化的场景。这里再多提一句,说一下DSP:很多人把DSP和CPU来作对比,因为DSP有时候会和CPU共同构成一颗芯片,比如TI的达芬奇系列芯片就包含了一个DSP核和三个ARM核;DSP全称是数字信号处理器,即Digital Signal Processor,DSP不像一般的CPU基于冯诺依曼架构,而是基于哈佛架构,更适用于数字信号处理;CPU和相比DSP,更强于控制。刚刚提到的DSP,它处理的是Digital Signal即数字信号,与数字信号相对的是模拟信号。模拟信号是连续的,表现形式是波形,例如我们听到的声音,因为其连续性,因此比较直观,但是容易受到干扰,并且不适合计算机直接处理;数字信号是离散的,用0,1表示,可以理解为是对模拟信号对应的波形进行连续取值,并将每一个值用数字表示出来,虽然在模数转换的时候会有失真,但数字信号易于保存,不会受到干扰,可以用计算机处理。现实世界中的信号绝大多数都是模拟信号,因此数模转换器是芯片当中非常重要的一个功能。因此,数字芯片和模拟芯片的底层区别就是他们所处理的信号种类不同。数字芯片占整个芯片市场的85%,包括存储器(DRAM、Flash等)、逻辑电路(PLDs、门阵列、显示驱动器等)、微 型元件(MPU、MCU、DSP);而模拟芯片占市场的15%,主要用于处理连续的模拟信号,其中53%是电源管理芯片,47%是信号链芯片。总的来说:数字芯片和模拟芯片的难度体现在不同的地方,数字芯片更强调性能和集成度,设计相对简单,但制程先进;而模拟芯片虽然制程较低,但是由于芯片涉及的元件较多、应用场景复杂,设计难度相对较大。我有一个自己杜撰的、关于芯片设计方案的不可能三角,即 通用性、集成度和性能三者最多只能同时实现两个。例如SoC是实现了集成度和性能;MCU是实现了通用性和集成度;衍生到ASIC和FPGA的区别里,ASIC是Application Specific Integrated Circuit的简称,是专用集成电路;而FPGA是Field Programmable Gate Array,现场可编程门阵列。FPGA可以快速的实现方案,并且具有功耗低的优势;ASIC芯片相比FPGA,在同样制程和应用场景下,其性能和成本是远优于FPGA的。因此,如果某一个应用场景需求量较大,能够Cover掉前期的芯片开发成本,那么ASIC是更有吸引力的方案;但是如果某个需求场景量不大,FPGA方案的优势就很明显了。当然我们也应该看到,当前很多ASIC芯片也可以具有一定程度上的可重构性,并且在ASIC芯片的研发过程中,常常采用FPGA方案作为过渡。到目前为止,对目前主流的芯片概念做了区分和厘清,汇总一下,做成下图的思维导图:芯片生产的流程、对应的能力结构和时间线首先对这节的范围进行一个限定,因为目前一级市场所看到的投资标的通常都是Fabless+Foundry的模式,因此本节中的芯片生产流程并不是从上游硅片开始,而是只针对Fabless公司,梳理其整个研发流程。从Fabless公司的IC设计流程来看,可以分为前端设计、后端设计和流片,其中,芯片验证穿插始终,因此,从职能上,也可以分为架构、硬件、软件和验证。通常,我们看到的AI芯片企业都是自己做前端设计,把后端设计、流片、封测、量产都外包给专门的服务商。我花了一些时间,将IC设计的流程整理成了下图的思维导图(主要是数字IC),如果有需求的话,可以拉到文末加我微信获取,当然在公众号里加我微信也可以,Even better。由于本文是以AI芯片投资为主题,因此整个流程中,前端设计和后端设计的内容讲的比较详细,Foundry和封测厂就一笔带过。前端设计的起点是需求考察与架构设计,输出结果是一张门级网表。整个前端设计可以这么理解:规划好这一颗芯片有什么功能,然后每一部分功能如何实现(通过硬件还是通过软件,软件类是采购IP还是自己做,芯片要符合哪一个协议、哪一个标准),之后就是将架构师抽象的一个芯片规划变成一个门级网表。这个过程当中涉及到了好几种EDA工具,并且在每一个环节完成后,都需要做至少一次的验证。具体的流程都在上图里,在此不做赘述;至于什么是门级网表,门级网表就是一张设计图,这张图里的单元就是“门”,如果对半导体有基础的了解,就知道里面的基础逻辑单元是“与门”、“非门”、“与非门”等等,门级网表就是由这样的门单元绘制成的一张电路图。简单的门级网表就长这样,但是实际上很复杂。后端设计的起点是刚才说的那张“门级网表”,最终的输出是一张用于IC制造的电路图,交给Foundry厂。这张图里有很多颜色,长下面这样:每一个颜色就代表一层,这样在加工的时候,就可以一层一层的加工。后端设计相比前端设计,更贴近现实世界与工艺,因此其侧重也不一样。尤其是在验证环节,前端的验证更偏向于性能和功能,而后端的验证除了性能和功能,还包括了一些可实现性的内容,简单来讲,就是工程师设计出来的东西到底能不能造出来。着重讲一下验证,验证并不是一个单独的环节,它穿插在前端设计、后端设计的每一步里。验证对于IC设计来讲非常重要,因为其实芯片工程师跟我们普通人是一样的, 也会有天马行空的想法,但是究竟能不能做出来,以及每一步工艺究竟有没有实现设计功能,都需要验证团队去做验证。有时候,验证人员在芯片企业的研发团队中,占比可能会超过30%。IC设计中主要的验证环节,在上面的思维导图里都有详细的列示,但是那里面的维度过于技术,在这里,我尝试以自己的理解,从不那么技术的角度来拆解一下,IC验证到底解决了什么问题(友情提示,下图中的术语只为了帮助理解,而不是专业术语)从验证的内容来区分:在不同的验证环节,被验证的对象可能不同,比如有功能验证(验证设计的功能是否顺利实现),有性能验证(规划的性能有没有达到),有BUG验证(软件BUG例如时钟单元错误,硬件BUG比如设计的功能和连线其实造不出来);从验证的工作属性来区分:我们可以看到,其实整个IC设计就是一个:架构方案——门电路图(门级网表,和物理世界联系不大)——可以直接制造出来的电路图(光罩图,和物理世界一一对应)的过程,因此验证也可以按照这个标准来区分,即一部分验证是偏软件的、和现实世界脱节的;而另一部分验证是和硬件相关的、和现实世界强关联的。前者称为Simulation,即用软件模拟出功能;后者称之为Emulation,即用软件模拟出系统。Simulation和Emulation的区别有点类似于前仿真和后仿真的区别,总结来说,一部分验证是建立在Simulation的基础上,目的是测试IC Design在理想情况下的功能实现,而另一部分验证是建立在Emulation的基础上,目的是看IC Design是否具有物理实现(制造出来)的可行性。从被验证的对象来区分:从整个流程来看,被验证的对象分为三类:一致性:IC设计的过程中,有很多表现形式的转变,比如从设计理念到代码、从一个代码到另一个代码、从代码到电路图,验证人员需要确保转变前后,design的Nature没有发生任何变化; IP:芯片上有很多功能,有的功能是通过外采的IP Core 来实现,有的功能是自己开发实现,验证团队需要确保每一个IP都是可用并且合格的 SoC:当整个芯片方案确定出来,验证团队需要确保芯片上的IP Core、布局、排线都没什么问题,确保整个芯片的性能和稳定性达到设计要求。验证的工作流程:验证流程分为几步:测试计划的制定、测试环境的搭建、创建Case并运行,将Case的通过率和覆盖率优化至100%,然后做后仿真测试(即Emulation)整个IC设计流程的耗时,在上面的图里也有体现,不过这里为了直观,我单独的将流程&时间线摘了出来,如下图:前端设计需要1-3年:对于Fabless芯片企业来讲,企业所做的主要是需求确定和前端设计,这部分耗时比较久,可能需要1-3年的时间,具体要看公司团队的能力和经验,如果团队设计能力较强,可能一年就能完成前端的设计;后端设计需要3个月:后端设计通常是外包给专业的后端公司,并且如果Fabless企业和Foundry关系不好的话,后端设计企业还可以起到从中斡旋排期的左右。通常,后端设计需要3个月左右;流片最快需要2个月,但是需要考虑到排期和成功率的问题:如果流片顺利,最快2个月就可以拿到回片。但是流片过程有两大不确定性:1. 代工厂的先进制程(比如7nm工艺)是非常紧俏的:尤其是台积电这种代工厂,它的7nm产线一般都是供给华为苹果这样的大客户,如果创业公司想去流片一个7nm的芯片,如果和代工厂的关系不够硬,排期可能会受到大客户的挤压,时间不可控;2. 流片失败的风险:虽然IC设计和验证的流程都已经非常成熟了,出来做芯片的人一般是行业大牛,都是有两把刷子的,但是谁也不能保证流片就100%成功,典型的反面案例就是小米旗下的松果电子,流片失败了5次。流片失败一方面带来金钱损失,另一方面,流片失败后,公司要重新从前端设计开始找原因,时间非常不可控。我们做投资的可能很容易理解,让我去改一个问题不知道出在哪的Model,耗时可能比重新搭一个还久。客户验证及测试需要半年-一年半:芯片流片回来,要根据下游客户需求做成方案,包括但不限于封装成模组、做成整机、再做性能的优化等等,芯片做得好、客户要的急,客户验证就快一些,不然这个时间也是非常不可控的。总的来说,从芯片研发启动开始,到形成销售,不出意外的话也需要2-4年:总的加起来,如果整个过程都顺利,从芯片研发立项开始,到最后形成芯片销售,需要2-4年的时间,4年的时间甚至超过了很多人民币基金的投资期,因此如果资本以种子的形式投到芯片企业里,一定要做好长期陪跑,甚至血本无归的准备。前面一直在讲IC设计的时间线,接下来分析一下IC设计的资金线,即公司大概要花多少钱、量产后芯片的销售成本是多少。首先我们对芯片生产中的Fixed Cost 和Variable Cost做一个区分:芯片的固定成本包括流片费用、后端外包费用、EDA软件授权费等;可变成本包括IP采购费用、测试成本、封装成本和生产时的硅片成本。具体见下表:可以看出,相比单颗芯片的可变成本,芯片的固定成本是极高的,因此,我搭建了一个简单的、芯片成本基于芯片出货量的敏感性分析。从芯片企业的角度来讲,企业对于资金的需求集中于两个节点:前端设计之前和流片之前:第一个时间点出现在公司成立初,因为要拉起来一票高层次芯片人才出来创业,需要支付工资。一个早期芯片公司,至少需要30人的研发团队,其中至少包括3-4个芯片大牛,就算芯片大牛全要股份不要钱,这30个芯片工程师,薪酬30w/人/年,一年900万人民币,算上办公场地和其他研发费用(EDA授权费和IP授权费,这俩都是预付、服务器和硬件设备采购),一个早期芯片企业每年的现金流出至少是1000万人民币。第二个时间点出现在流片前,流片是要花很多钱的,这个钱主要是做掩膜版(Mask)的钱,制程越先进,花钱越多。22nm工艺的一次流片成本是80万美金;12nm工艺的一次流片成本是300万美金。至于目前最先进的7nm工艺,华为麒麟990的流片成本是3000万美金,当然华为肯定是Full Mask,如果创业公司用MPW方式去做的话,我猜1000万美金应该是有的(没有验证过,欢迎指正)。做芯片公司第一轮投资者,风险其实比较高,但收益也比较高:对于财务投资者,要么是看好技术团队的长期实力,在团队组建之初就投进去,这样投的风险比较大,因为还要考虑到团队组建不利的风险,以及需要等待漫长的前端设计时间,但是好处是,如果公司研发走向正轨,这样后续至少会有一轮融资,因为流片前公司必开一轮融资,就算公司倒闭了,第一轮投资者也有人垫背(狗头);财务投资者的最优投资节点应该是流片前的一轮:通常这一轮会是芯片企业融资的第二轮,这个时间点风险相对低了一些,主要原因是随着芯片方案的不断完善,公司也在不断的和下游潜在客户沟通、和需求做Match,这样子的话,公司风险主要是流片失败的风险,而一旦流片成功,在出货方面会顺利一些;我之所以认为这一轮是最合适的一轮,一方面是因为这一轮风险收益的对比更对我的口味,另一方面是,如果想在种子轮投到行业大牛出来创业的企业里,投资人一定是要在那个圈子里浸淫,但是像市面上大多数财务投资机构,是没有那个人脉和判断能力的;流片之后,整个融资节奏会转向“产业投资人为主,财务投资人跟投”的状态:当芯片企业成功流片之后,公司的基本面中,流片失败的风险预期会被极大的排除,通常公司会有一轮估值飙升,公司也会借此机会囤积资金做商业化和进一步的研发投入(比如下一颗芯片);而这个阶段的企业会进入产业资本的视野,背后有几个原因:1. 产业资本有足够的底气投进任何公司,因此不需要承担风险:产业资本分为两种,一种是大型企业的战投,一种是国家背景的半导体基金。前者希望深度绑定AI芯片企业,让它根据自己的需求研发,而流片成功的企业证明了自己团队的研发实力,因此大企业的战投会以投资的方式进入;当然强迫站队也是一个原因;另一种产业资本是国家背景的半导体基金,这种产业资本有钱,但是内部决策流程复杂,风险承受能力弱(投亏了要背锅的),这种流片成功的企业风险小了很多,其实是国家队眼中的优质标的;2. 产业资本和财务投资者不同,在一个细分行业里,产业资本的视野可以认为是没有盲区的:和财务投资者不同,不管是大公司还是国家队,都有顶层的信息获取能力,使得他们能够Cover到关注某个细分、和他们强相关领域的几乎所有企业,大公司战投尤甚,因为这些企业会主动拿着自己流片成功的产品去找他们测试,因此大公司战投无论是从背调、还是从产品评估上,都要比财务投资者专业很多,理论上不存在他们没看过的企业。因此如果有企业流片成功后还没有产业资本进入,可能财务投资者就要好好想想背后是不是有什么原因了。按照AI芯片的通用分类,应该分为云端训练芯片、云端推理芯片、边缘端推理芯片。
其中,面向不同领域的边缘端芯片差别较大。具体分类见下图:对于云端芯片来说,其下游面对的场景具有较大的通用性,但是对于边缘推理则不然,下表列出来不同场景对边缘推理芯片的性能要求:具体到竞争格局,AI芯片行业有三类企业:传统芯片厂商,巨头跨界和初创公司传统芯片厂商研发实力极强,大概率不会在AI芯片市场掉队:例如NVIDIA,AMD,Intel等,各家公司的优势市场不同,但是在芯片市场上都是巨头。大公司研发实力强、资源广、人才集聚效应强,烧得起钱,在AI芯片市场中,也将会是强有力的一极。
跨界巨头切入AI芯片市场主要是出于业务和产业协同考虑:芯片研发是门槛非常高、资金要求非常巨大的事,因此能够跨界切入AI芯片市场的公司,通常具有两个标准:1. 公司体量非常大。2. 公司现有业务对于AI芯片有大量的需求。典型的跨界巨头分为三类,第一类是互联网公司,其互联网业务对于云端AI芯片有巨量的需求,而一块NVIDIAT4售价2000美金,V100售价甚至高达8000美金,自研芯片或者支持某家芯片公司,具有巨大的成本吸引力;第二类是安防巨头,例如海康、大华,他们不只需要云端芯片,对AI摄像头上的边缘端芯片也有大量的需求,并且,海康大华由于业务贴近于安防,其对于芯片定制的要求也较高,自己研发或者和某家创业公司深度绑定,是很有吸引力的方案;第三类就是华为,反正什么都会做。初创公司通常差异化切入市场,以此形成错位的竞争优势:传统芯片巨头在AI芯片市场上的综合能力是最强的,这一点毋庸置疑,因此初创企业必须要寻找到自己的差异化竞争优势,即组建一批实力强劲的团队,在某一个新兴市场、或者芯片巨头因为种种原因不去做、或做不好的市场,形成错位的竞争优势,并且借助小公司灵活的特点,快速了解客户需求,并且形成销售,进而在市场上站住脚跟。具体到竞争格局,我这段时间做了一个行业的Mapping,不一定全面,其中,大厂的信息较为公开,因此下图只列示了各个领域的创业公司,在资方方面,只列示了主流半导体和产业资本。列示如下图:在研判AI芯片未来的发展趋势的时候,要持有两个立场:
(1) 我们的目的是投资于能够成长成为一定体量企业的AI芯片初创公司;(2)AI芯片是一个新的科技方向,新机会的底层一定是新技术、或者是新需求。
虽然目标是早期企业,但必须承认创业公司和巨头之间的实力差距:首先,从第一个立场出发,作为投资人,我们是要寻找有潜力的早期企业,但是我们不得不怀着一个不太有梦想的信念,就是这个AI芯片行业的所有初创公司的技术实力都不如巨头。这背后是非常简单的逻辑,钱和人才。NVIDIA2019年全年的研发投入高达193亿元人民币,而对比来看,2019年中国AI行业融资额也才900亿人民币,这里面还包含了相当的软件企业。在技术端,AI芯片未来一定会有围绕着性能提升的、持续的技术突破,焦点是内存墙(冯诺依曼瓶颈):AI芯片技术的核心在于性能,所有的其他性能要素都是围绕着性能服务的。例如,AI芯片和场景的契合度本质上是在某个特定需求下达到高性能、低功耗芯片的核心也是在低功耗的前提下达到符合要求的性能。厘清了这一点,其实AI芯片技术进步的方向就是性能提升,而性能提升面临着两大瓶颈“摩尔定律走到尽头,以及冯诺依曼瓶颈(内存墙)。(摩尔定律走到尽头意味着同样面积下,晶体管数量的提升不可能没有上限;冯诺依曼瓶颈则是指,运算能力受到了内存访问速度的掣肘,无法完全发挥出来。)我认为,在云端,各种需求的不断增长会带来通用芯片份额的萎缩,衍生出专业芯片的机会:目前,云端训练是英伟达的V100占据绝对主导,而云端推理是英伟达的T4占据绝对市场份额。云端训练芯片的核心就是性能和通用性,这两点恰好是大厂的强项。而云端推理其实是带有一定的需求适配要求在的,因为云端推理芯片在面对各种各样的场景,比如安防、比如NLP、比如音视频处理,理论上,差异化的需求一定会带来差异化的机会。目前,通用性强的T4在云端推理市场上一骑绝尘,底层原因是还没有出现达到一亿美金规模的专用性市场:从前面的那张芯片成本分析表,我们可以看出来,当芯片销量是5w片的时候,对应毛利是68%,而芯片只卖1w片的时候,毛利率还是负的。我们来简单计算一下,假如一家芯片初创公司A公司的产品卖5w片,单价1000美金,市占率50%,那么这就是一个一亿美金的市场。小于这个规模的细分行业,专用性芯片是没有价值的,因为卖一个亏一个。专用性市场空间不大的原因在于整个云端推理市场规模还有限,全球12亿美金,中国3亿美金:而现在整个云端推理市场有多大呢?我简单算了一下,NVIDIA2019年数据中心业务营收29.8亿美元,其中,在第三季度,T4销量首度超过了V100,我们假设2019全年T4销量=V100销量,T4单价2000美元,V100单价8000美元,算出来T4和V100的销量各30万颗,T4市场规模应该是12亿美金。中国目前数据产生量占全球的比例是23%,我们按照这个比例估计,中国T4(云端推理)的市场规模应该是2.76亿美金。因此,整个国内,通用性云端推理的市场空间才3亿美金不到,目前的阶段是拆不出来几个超过1亿美金的细分市场的,所以这也是目前T4一家独大的原因。一亿美金的专用市场很快就会出现:从整体来看,2015-2019年NVIDIA数据中心业务的CAGR达到72%;从细分行业来看,下游的直播、短视频、安防、NLP的发展速度都十分迅猛,从3年的视角,甚至1-2年,这些需求对应的云端推理芯片,一定会达到1亿美金的规模,那么也一定会长出来合适的AI芯片企业。在当中的投资逻辑里,这样的企业市值大约会是200亿RMB以内:差异化云端AI芯片企业成长起来的底层逻辑在于,他面向的是一个不大,所以大厂不会做、同时也不小,能让它赚到钱的市场。大致在1-10亿美金的范畴。因此这种企业的估值上限是有限的,假设3亿美金销售,20%净利润,40倍PE,大约是160亿的市值。当然如果企业后续做了横向扩张,或者下游需求变得足够大,企业在这个市场中也站稳了脚跟,成长空间就更大,但这已经是脱离我目前的设定的投资逻辑的事情了。最后一部分,我想讲一下我对于AI芯片行业的投资逻辑,分为两个部分:投什么方向,怎么判断企业。如下图:
我的选择是需求变化:我做了一个很没有想象力的选择,一点不像一个理工科出身的人,但是这么选是有理由的。因为如果去投资技术变化,涉及到三个风险,包括两个我一定不愿意承担的风险,和一个盈亏同源的风险:技术路线错误的风险:这个很好理解,我举个例子,为什么AMD现在在云端AI芯片上被NVIDIA揍得很惨,是因为2008的时候AMD提出了一个伟大的想法,叫做GPU和CPU合二为一。资本市场很认可这个逻辑,08年的AMD股价是5块钱,17年的时候涨到13块。但是很不幸,其实没做出来,要不是最近AMD在CPU上异军突起,和大家伙一句一句“AMD Yes”的支持,这家公司可能更惨。因此一个错误的技术路线可能会导致公司错过一个大机遇(至少在一定时间内是错过的),对于AMD,它可以承受这个错误带来的代价,但是创业公司不行。技术成熟度的风险:我在实验室做毕设的时候,所有人都是“下个月出数据!”,“3月份肯定毕业!”,然后其中的大多数的人都失败了;现在我来做科技类投资,很多企业都是“春节流片!”“下个月出货!”,大部分也失败了。当然个人能力是很重要的一个因素,但是技术成熟度爬升本身就是有风险的。IBM有一个技术成熟度的图,这里我摘出来给大家看一下:技术路线是对的,但别人做出来了。这个是我可以承担的风险,按我的理解,如果初创企业死在了这一个风险上,那它是站着死的,但是很不幸,大多数企业可能并没有选择自己死法的权利。因此我的选择是投需求:就像刚才在发展趋势那里讲的,我希望能找到快速成长的一个下游细分市场,接着去看里面的ASIC芯片的机会。我选择推理:并不是说训练市场没有机会,这个市场的机会其实很大,但是训练端是纯堆算力和通用性,在这个市场,创业公司是直面巨头的竞争压力的,而不是差异化竞争。当然如果之后云端训练芯片也出现了差异化竞争的机会,那我可能会改变我的看法。另外,我是愿意相信云端训练会有中国的创业公司跑出来的,但是风险太大,可能需要做撒网式投资,这就跟基金风格和个人风格有关,这也是我Prefer推理市场的原因。我认为,AI芯片企业的KeyPoint其实是两点:在市场端具有差异化竞争优势,在技术端一定是经验丰富的高管市场端:一定要有清晰的核心竞争力:”市场大、是确定性趋势就一定会有企业跑出来“这句话是没有错的,但是最后成功的那家企业,他成功的最重要原因一定不是市场大。所以在做企业判断的时候,一定要想清楚这家企业的核心竞争力是什么,是差异化需求、还是新技术、还是生态。这一点很重要,尤其是在AI芯片这个不确定性很强的市场中。技术端:团队一定要经验丰富,这关系到芯片成功率和后续对人才的招募:前面讲到,财务投资者最佳的投资轮次在流片前一轮。这个时候还是有很大的流片成功不确定性在的,那怎么降低不确定性,就是看团队是不是经验丰富。况且,另一个层面,芯片研发是堆人才的事,创业者都自己不在这个圈子里做高管,怎么招到大厂的人过来?要靠BOSS直聘吗?这里多说一句,讲一个误区,就是国产替代:国产替代是一个长期的趋势,也是很多投资人判断的一个核心逻辑。但是,国产替代是一个战略层次的需要,在宏观上是确定性非常高的,但在企业层面的判断上,不能想当然。一定要区分清楚,“国家需要企业替代NVIDIA”和“这家真的可以替代NVIDIA”之间的区别,别自己把自己忽悠瘸了。一定要具备市场需求的获取能力,企业最好拥有一个芯片大厂战略层面的高管:首先,我们投的是流片前的早期企业,我们不奢求企业有很强的销售能力,说白了这个阶段的企业也需要销售;但是我们希望企业能有很强的需求获取能力,因为在一款芯片研发时,企业要搞明白自己芯片的定位,怎么形成差异化,并且在芯片流片后,能够尽快的、甚至直接的对客户进行销售。这就对企业的“获取客户需求的”的能力有了很高的需求。从判断企业角度,最好是有一个芯片大厂的战略层面的高管,因为这样的人他是直接对接大客户需求的,他对于市场需求和芯片发展方向很敏感。对于企业核心高管的判断,最好是做架构出身,如果不是,那么高管之前做的工作一定要和当前研发的芯片方向高度契合::芯片大厂出来的高管有很多,说句不好听的话,半导体创业团队如果没有一个芯片大厂高管+一个顶尖大学教授,都不好意思说自己是做半导体的。但是大厂的高管有很多职能,大家也都在做不同的事,如何对大厂高管的技术背景做甄别和选择?我认为,从前面的芯片研发流程我们可以看出来,架构是芯片最重要的环节,是整个芯片研发的基础,如果高管是有架构设计经验的,那就再好不过了,如果不是,那么其实这个高管之前做的事最好是和创业方向高度契合的;做完核心高管的判断之后,关于整个技术团队的能力结构,重要性由高到低是:架构、验证、硬件、软件:架构和芯片系统是最核心的,因为芯片的底层和核心都在这,这个前面讲得很清楚了。验证的重要性排第二,但是重点不在于验证负责人,在于验证体系:我把验证排到第二,因为验证是决定芯片能不能做出来、做出来的芯片性能好不好的核心,但是对于验证的判断呢,和其他技术结构不一样,一个创业公司验证实力强不强,不是看他验证负责人水平怎么样,而是看公司有没有建立一个验证的完备体系,或者是验证负责人有没有建立起这个体系的能力。说白了,验证就是查漏补缺,具体每一个验证的工作都不难(相比架构设计),关键是要有一个完善的体系软件和硬件同等重要,但是相互的重要性不太一样:硬件有点类似于架构设计,是对芯片整体的一个权衡,硬件团队的实力决定了公司在实现芯片设计时,所能达到的性能;而软件团队的作用更多的在于需求和编译器端,简单来理解的话,就是软件团队要先搞明白下游可能会有什么需求,然后先搭建一个很好的软件环境,让客户更好的使用自己的芯片;当然芯片上自己的软件系统也是一方面,但是重要性不如编译器为主的面向需求的软件重要。