高静宜 宇多田采访

一位出身技术圈的资深投资人,跟我们「头脑风暴」了自动驾驶公司的投资逻辑

自动驾驶领域,创业不易,投资更不易。

每个人都想在这个有望颠覆整个汽车产业的行业里分一杯羹,又怕走出坏棋。

究竟具备哪些特质的自动驾驶创业公司有机会弯道超车?如何考量创始团队的技术实力与产业背景?怎样洞悉一家自动驾驶创业公司的未来成长空间?

这些问题,往往需要投资人一 一解答,也会给那些身处在这一行业的创业者,以及半只脚踏进圈子的观望者带来启示。

本周,我们与出身中国高端制造业的投资人樊雪松聊了聊自动驾驶领域的创业现状。作为德联资本的高级副总裁,在 2015 年着手接触自动驾驶投资项目之前,毕业于哈尔滨工程大学的樊雪松就已经在中国卫星工程建设领域有了多年的项目经验,目前从事风险投资已有 7 年。

德联资本高级副总裁樊雪松

在德联资本,他重点关注装备自动化、柔性化、信息化、智能化等方向的投资机会,代表公司对 CalmCar 以及飞芯科技两家自动驾驶领域的创业公司进行投资。

其中,前者专注于基于单目摄像头的 ADAS 系统研发,后者则聚焦于研发车载激光雷达的芯片级解决方案。

让我们听听他是如何从技术的角度理解自动驾驶行业以及在自动驾驶领域的投资逻辑(根据口述进行的整理)。

执行、决策与感知,哪个部分值得投 

刚开始看自动驾驶这个行业的时候,我们其实是非常纠结的。因为自动驾驶行业技术点多,视觉感知、激光雷达、决策控制,听起来都像是不错的机会。

最初我们也并没有直接锁定到某一家公司,而是系统地把行业梳理了一遍,才一点点将范围缩小到了最终投资的 CalmCar 和飞芯上。

大概从 2015 年底,团队开始学习的自动驾驶领域知识。当时,谷歌就已经围绕人工智能技术布局了无人机机器人以及自动驾驶。不同于那些渐进式的技术或者产业动向,自动驾驶是少见的可以颠覆整个产业的,趋势化也是显而易见的,甚至连普通大学生也能感知一二。

在我们梳理了自动驾驶领域的技术之后,发现整个自动驾驶可以分为三大块,分别为感知、决策和执行。

执行这部分覆盖了几个关键点,包括动力系统、刹车、转向、安全等,这些技术的理论较为成熟,也拥有将近一个世纪的工程实践经历。那些行业龙头公司不缺人、不缺钱也不缺市场机会,想在这个领域实现弯道超车,直接超越那些传统大牌公司,相对比较困难。

除非是在这个行业里深耕过十几年的人出来创业,他自己本身带有技术属性和产业属性,这种情况可能会存在一些机会。从我们当时的视角来看,这种具有浓重产业属性的团队可遇而不可求。执行部分我们选择了放弃。

我们比较犹豫的是在感知和决策这两部分之间的抉择。

当初我们拜访了许多领域内各大高校的学者,也拜访了不少自动驾驶业内专家。

我们发现,在决策这部分,自动驾驶的技术路线可能主要分为几大类发展路线。

一类是以谷歌、百度为代表的互联网类。这些公司拥有雄厚的资金,可以大量招聘优秀人才,大量投入资金,会从最高级别的无人驾驶往低级别无人驾驶走。他们的理念是,不在意短期是否盈利,一旦做成了,那么这个行业全是我的。

一类是以整车厂为代表的工业类,例如福特、奔驰、宝马等。这些公司内部配置了强大的技术,是从底层向上做起,L1 成熟了就做 L2,例如倒车影像、环视、自动泊车、前车防撞等技术,都是工业企业一层层往上走过的印记。

还有一类是针对具体场景的,例如低速场景,包括园区的巡逻车、环卫低速车等。这类场景对行车速度的要求相对较低,行驶环境也不像城市街道那么复杂,但这类自动驾驶也是需要比较多的积累。

所以,自动驾驶决策部分的特点是,龙头多、技术点繁杂,需要大资源、大技术、大资本,才能投入下一个环节。

对于初创公司来说,做这个就需要在相对比较成熟的环境里面,拥有比较高的配置,要对整个技术体系有比较好的把控。但从当时来看,决策这块在理论和实践上并不是特别成熟,所以我们认为在决策这块初创企业的机会没有那么多,或者说,还要等待产业的成熟。

这样一来,我们就选择把布局重点放在感知环节。

感知环节要通过传感器获取外界的物理信息,对于决策来说,感知也是一个必配的环节。而且,感知并非自动驾驶单独需要的,所有的智能化场景,包括机器人无人机,都需要感知

不过,感知也有很多不同的解决方案,例如摄像头、激光雷达、毫米波雷达、超声波雷达、还有红外传感等,具体怎么选择呢?

目标公司画像:单目摄像头、深度学习算法、产业背景

我们选择了应用范围最大也是最不可替代的摄像头。

无论是哪个厂的方案,特斯拉也好,奔驰宝马也好,都离不开摄像头。这是因为,摄像头具有一个独一无二的能力:

以现有工业技术来看,在所有传感器当中,只有摄像头具备识别能力,而且这个识别能力还会根据算法实现迭代优化。

对于自动驾驶的具体场景来说,识别能力非常关键。

例如,一辆车在行驶的过程中,前面出现了行人,那感知系统就要根据识别结果采取相应的行动。如果是小孩,那就必须停车,如果是成人,则可以再根据行人的行为采取相应的减速措施等。

在这样的场景下,基于识别能力可以对人和物完成初步的判断,是非常必要的,所以我们首先选择了视觉。

不过,视觉领域的技术路线特别多,有单目、双目、多目,还有环视。到底投资哪一种呢?听起来似乎每个都很重要。

为此,我们找到整车厂、Tier1 厂商聊,然后就锁定在了有识别能力的单目摄像头上。

有些企业会用双目摄像头解决距离的判断问题。但是在自动驾驶场景中,偏高速的场景往往会用毫米波雷达来解决测距问题,而在低速场景使用双目来测距则仍会受到阴雨、光线等外界条件的影响。所以当时我们看好的是有识别能力且不以判断距离为核心的单目摄像头。

有了这个判断后,之后还是会遇到一些问题。因为摄像头的算法有很多种,基本可以分为两大类。

第一类是传统的模式识别。简单来说就是对识别到的物体进行特征提取,然后将提取到的特征与现有模板进行比对,然后完成分类、识别的任务。使用这一类技术的最有代表性的公司就是以色列的 Mobileye。

模式识别存在一个问题,就是所有的判断都是基于已经了解的知识。

换句话说,是通过枚举的方式来认识这个世界。如果遇到了此前没有见过的物体,那么系统就无法完成识别判断。这在 ADAS、有人类辅助的低级自动驾驶场景中可行,但在更高级别的自动驾驶场景,例如车里的人做别的事让车自己行驶,那么这种方法就可能出现问题。

Mobileye 在这个技术路径上积累了多年经验,已收集和迭代了全球各种驾驶场景的数据。国内也有走与 Mobielye 相同路线的公司,但想在算法和数据上超越 Mobileye 基本上是非常困难的,需要很长的时间和大量资源的投入。

所以我们就想,到底机会在哪?

自动驾驶场景的基本属性来看,交通场景属于非结构化的场景。什么是非结构化?

简单来说,结构化的数据是可以通过一、两个物理量表征出来的,但非结构化数据和场景却很难用一、两个量表征出来。例如,一个复杂的十字路口就没有办法单纯滴用几个人、几盏灯、几个小孩这样的量来表征。

而随着这一轮人工智能的兴起,深度学习自动驾驶场场景中就起到了非常关键的作用,可以通过一系列数据训练模型来解决问题,而且随着数据量的增加,模型的识别和判断能力会逐渐提升。

如此看来,投资走模式识别技术路线的公司在短期内机会相对较小,所以我们转向深度学习这一块。

而从技术角度出发,深度学习能力的判断无非就是考量模型和数据。

我们首先看的是数据,想看看有没有一些特殊的方式能够让一家公司能够拥有先于业内其他企业数据获取能力,拥有更低成本、更高效率的数据获取方式,这是我们当时考量的一个基础。

其实,我们在理解数据上也走很长的一段路。最开始,我们以为在出租车上挂一个行车记录仪出去跑一跑、拍一拍就 OK 了,但这跟实际需要的数据相差甚远。

为什么呢?因为实际需要的数据需要多元化的数据。可能在高速公路了拍了几万公里但是由于车辆少、场景单一,大多数数据都没什么用。

后来我们了解到,实际需要的数据叫做全驾乘状态的车辆数据。除了摄像头自身标定出来的有人和物的数据,还要伴随着场景中的汽车状态数据,例如 CAN 总线数据、GPS 数据等。

相比之下,简单依靠出租车搭载行车记录仪得到的数据并不完备,这种全驾乘状态的车辆数据才是核心,而且必须与专业机构、车厂合作才能获取。

另外一点就是模型。在考量算法模型时,我们其实有很大的顾虑。

现在有很多成熟的开源框架,例如 TensorFlow、Caffe 等等。这些开源算法框架的存在似乎是把门槛降低了。但是理解之后,我们发现,同样是 TensorFlow,不同企业、不同厂家拿过来使用以后,产生的效果是不一样的。原因在于,模型优化这件事情有三个层面。

第一个层面是简单的参数调整。例如对某一个网络层的某一个参数进行调参,并不知道调出来的效果是什么样的,只能一次一次的试,有点像算命。

第二个层面是可以改开源算法框架的源代码,进而优化里面的细节公式。这个层面可能需要对 TensorFlow 体系有比较深入的理解,同时对工程化有比较深入的认知,往往具备产业背景。

第三个层面不但可以调整技术源代码,还可以根据自己的数学理解和开发能力,用不同的数据方法优化底层的数据公式。这个层面除了对产业和工程存在要求,最好还要具备比较深的数学功底。这些经历可以帮助研发人员在模型尝试的过程中少走很多弯路。

2016 年的时候,国内也冒出了很多自动驾驶创业公司,我们也看了很多,但一直没有找到特别合适的企业,所以一直在等机会。直到有一次,我们碰到 CalmCar 这个企业,这家公司与我们之前描绘的企业画像非常匹配。

在模型上,公司的 CTO 谢晓靓是美国数学博士, 拥有多年硅谷深度学习算法开发经历。在数据上,这家公司已经与国内的一些机构和整车厂展开了比较深入的合作。

第三是汽车产业背景。

汽车行业是一个非常独特的工业体系,产品量非常大、对技术和工程要求又极其苛刻。创始团队的汽车产业背景,有助这种行业规则和行业工程属性的认知,实现事半功倍的效果,相对走起来不会那么辛苦。因为那些整车厂、tier1 厂商手里拿着需求,通过与这些厂商各种繁琐的、庞杂、频繁的产品沟通、技术解析,最终掌握产品特性和要求,进而打开市场。

而且具备产业背景也是进入汽车前装的一个要素。我们投资自动驾驶领域就是奔着汽车前装去的,熟悉行业玩法和规矩非常重要。我们理解的是,前装、后装是两个完全不同的市场,后装不涉及安全,前装却有特别多的规矩,挑战更大。

所以你看,凡是做前装的基本上创始人都有整车厂或是 Tier1 的背景。譬如 CalmCar,这家公司的 CEO 王曦拥有十年英国、澳洲汽车电子核心研发的工作经验。

所以,我们当初看到 CalmCar 的时候,就迅速布局了这家公司。

激光雷达主流技术路径的取舍逻辑

德联资本在 2016 年底完成了 ADAS 领域的布局,对激光雷达公司的投资则是在 2017 年。

激光雷达也有很多技术路线,比较复杂。当时有四个主流路线。

第一个是机械旋转式激光雷达。

这类激光雷达有机械旋转机构,相对笨重,如果要将旋转机构做到可靠性高,满足车规级要求,成本会很高。我们认为,这类激光雷达的机会是窗口性的,未来其他技术成熟了,这类激光雷达可能会退出市场。这也是所谓的非固态激光雷达,人们通常把下面这三种成为固态激光雷达。

第二类是 MEMS 激光雷达。这类激光雷达是把所有的机械结构做到半导体工艺上,集成到单个芯片。目前,国外有以色列公司 Innoluce 正在尝试这一技术路径,国内也有走类似路线公司,但国内在其核心原件 MEMS 振镜一直量产能力不强。而且这个方案在成本上不太可靠。

第三类是光学相控阵激光雷达。这类激光雷达对工艺要求极其苛刻,因此量产也是一个问题。

第四类是面阵激光雷达。之前面阵激光雷达较多应用于航天军工领域,精度较高,但是造价昂贵。

2017 年上半年,我们大致梳理好了对激光雷达领域的看法与思路,但并没有找到好的标地。

而在下半年,激光雷达领域出现了一种新的思路,就是用硅基来做传感器,用模拟的方式把激光信号转成数字。当然这个过程涉及模拟信号的提取、降噪,也是非常复杂的。

机缘巧合下,我们碰到了飞芯这家公司。

飞芯做的面阵探测器接收芯片这部分,无论是技术路径还是创始人的产业背景都与我们的画像非常匹配。当时飞芯的芯片还没有做出来,但我们觉得这是一个大趋势,做出芯片对这些人来说只是时间和钱的问题,而且从公司创始人和核心技术人员的产业经历,做出合格的芯片应该是个大概率事件。

我们愿意赌这个方向,为这个领域配置资源,不管这个项目有没有成功,都可以给行业培养一些领域内的技术人才。不仅自动驾驶,在其他领域也可以应用。

产业激光雷达自动驾驶
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

模拟信号技术

模拟信号(英语:analog signal),是指在时域上数学形式为连续函数的信号。与模拟信号对应的是数字信号,后者采取分立的逻辑值,而前者可以获取连续值。模拟信号的概念常常在涉及电的领域中被使用,不过经典力学、气动力学(pneumatic)、水力学等学科有时也会使用模拟信号的概念。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

无人机技术

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

推荐文章
暂无评论
暂无评论~