3 月 23 日,机器之心「AI 科技年会」的并行论坛之一——首席智行官大会受到了业界广泛关注。本次大会围绕汽车机器人、芯片及自动驾驶等领域,邀请了 11 位业内极具代表性的企业高层及专家,为出行智能化的时代代言。
其中,毫末智行联合创始人兼CEO顾维灏就深度剖析了数据智能对于自动驾驶AI进化的重要意义,同时详细介绍了数据智能体系 MANA(雪湖)。顾维灏称,在自动驾驶行业业内,谁能高效低成本地挖掘数据价值,谁就能成为竞争的王者。
以下为顾维灏在本次大会发言的速记整理:
毫末智行的三大业务线
我们成立于2019年底,是一家致力于自动驾驶的人工智能技术公司。公司从创立伊始即确立了风车战略,在两年多的时间里,我们一直围绕着风车战略做演进。风车战略以数据智能为核心,驱动业务发展,
其中,业务包括乘用车、智能硬件和末端物流无人车。在数据智能驱动三个业务的同时,我们从各个业务体系中持续收集基于毫末能力所产出的数据,然后利用这些数据进一步回馈数据智能的体系,使我们的能力能够有更进一步的发展。
过去的两年,我们基于风车战略和技术能力,在各个领域都收获了一些产品。比如在乘用车领域,截至目前,已经有六款长城汽车搭载了我们的高级辅助驾驶产品,叫做小魔盒。在末端物流无人车领域,我们和美团、阿里都有了比较深入的合作。同时,我们也把软、硬件能力和自动驾驶能力集中,向物美多点同类型公司提供履约服务。
在试运行期间,我们除了积攒和发现了一些问题,更多的是在技术能力上取得了进步。在智能硬件领域,我们主要是在跟随机器人上做了一些研发性的尝试,比如超市里拉货物的小车,以及逛商场和公园时,跟随在人身后的、形似小机器人的白色小车,它可以协助承载物品。
总而言之,在过去两年的实践过程中,我们基于数据智能赋能了屏幕上的这些产品。同时,在自动驾驶领域,我们也成为中国自动驾驶量产第一名。
为什么说我们是第一名呢?在乘用车领域,我们的产品搭载在长城汽车上卖给用户,截至目前,用户辅助驾驶行驶里程已经突破600万公里,在未来两年之内,我们计划是要搭载一百万辆车,用我们的产品服务更多的人,促进交通和社会更加安全。
数据智能是最根本的驱动力
风车战略中,数据智能实际是最根本的驱动力。针对数据智能,我们有了以下的这些思考。因为乘用车或者用户使用的车辆在运行过程中会应用我们的产品,在应用过程中自然就会对这些产品做出各种各样的反馈,有时我们产品表现好,有时产品距离用户的期望值还存在一些差距。
基于此,我们将这些不满足用户期望的数据通过各种机制寻回,再针对这些数据做更深入的挖掘学习和处理,训练出更好的算法,以及更好的服务模式。然后,将迭代的版本OTA到汽车端上,用户就能够体验到每个阶段不一样的能力。
在这个过程中我们也做了很多沉淀和总结。我们认为在这套系统里最根本是要解决两个问题,一个是数据闭环的成本问题,另外一个则是在自动驾驶演进过程中,我们究竟能以多快的速度来演进。我们把这样的成本和速度当成我们数据智能最基本的思想钢印,印在所有研发同学或者研发体系里。关于思想钢印,我会再进一步介绍毫末在数据智能方面的一些规划和取得的成绩。
在600万公里的用户行驶里程中,我们发现了什么呢?我们发现,用户使用产品时,他们所遇到的环境远远比我们坐在办公室里,或者是在几十万的测试公里中遇到的环境要复杂的多,包括各种各样的天气,各种各样障碍物和交通环境,外界环境比我们想象的要复杂。
此外,在这个过程中,我们也发现交通参与者的互相交互也比想象中要复杂的多。汽车、行人,以及各种路口综合在一起,会让我们面临的环境挑战比预想中大很多。基于这些实践,以及用户的反馈,我们发现现在的系统还不够完善的地方,我们在不断思考下,总结出了自动驾驶能力发展曲线:F=Z+M(X)。
如果自动驾驶能力是纵轴,可以表现出能力发展曲线是一个初始化的能力,我们叫Z0,是最初我们在办公室里一起写出来的一套系统程序。M(X)是这个能力发展中最关键一个函数,它与数据规模直接相关,同时也是把数据转化成知识的一种能力函数,包括了数据获取,数据表达,数据存储,数据传输,以及传输回到数据中心后,我们要重新训练这种AI算法或者模型,用什么方式进行计算,云上怎么计算,端上怎么计算。在有了新的能力后,如何快速的验证现有的新能力比原来的好,这其实就是验证的能力。
在这六个能力基础上,我们还要考虑刚才提到的思想钢印,即成本、速度和迭代速度在函数中该如何表达。
数据智能体系MANA(雪湖)系统
基于这样的思考,我们在去年年底发布了中国第一个致力于自动驾驶的数据智能体系MANA(雪湖)。这套系统里主要分成四个大的方面,一个方面是BASE层,解决了基础数据的获取、计算,以及基础通信能力。
在上层主要有三个子模块,一块叫做TARS,是人工智能在演进过程中的一些原形算法,包括视觉感知,规划控制,特征地图,以及仿真验证,这些我们叫做原形层。原形层到真正的应用还有一段距离,这段距离就是靠LUCAS(智能泛化系统)来解决,它负责之前实验的这些原形算法能够更大规模的应用到实际环境中,需要解决算法本身的基础泛化能力。
基于LUCAS系统,算法经过原形系统和泛化系统之后,才有可能部署到用户车辆上。而VENUS系统在整个过程中是用数据做表征,包括数据训练的程度,算法收敛的程度,以及应用过程中理想和现实的差距该怎么样找出来。这四种能力合在一块就是我们现在定义的数据智能体系MANA。
接下来我会从感知、认知,以及云端计算三个方面,详细的介绍一下MANA。
MANA感知层面就是我在这个系统里点亮的一些模块,表示说我们在这个系统里边做感知的时候用到哪些子模块的能力。感知系统的一些核心方式就像这一页图上展示的两个部分,一部分是基于摄像头的,还有一部分基于激光雷达的。在我们未来新配备的即将量产车辆里,同时配备了摄像头、激光雷达,以及毫末雷达这样的传感器。
对于摄像头来说,我们现在的方式就像图上所展示的,我们从camera获取到数据之后,经过一层基础的训练学习,把它学习出一批基础的特征值。这些基础的特征值,一小部分用于全局性的任务处理,包括Free space以及场景的识别。
另外一部分会呈现多维的特征层,所有的识别任务就可以经过特征层来进行处理,包含了道路车道线、道路边界、羽翼分割,以及障碍物处理。我们现在的处理方法是,通过一个主干网,以及两类neck,然后再处理8到9个这样的任务,相对来讲节省了很多建基础网络的时间,也取得了一些比较不错的识别效果。
除了camera层面,我们其实在激光lidar层面也做了一些识别的工作,lidar处理方面现在行业里边,大家相对都会比较一致,会针对点云,做pointpillar特征的提取,做成一种伪2D的模式,再用图象识别的算法,把激光雷达里的一些障碍物和姿态给识别出来,这两套方法其实是现在来讲比较主流的方式,我们现在也在使用。
但在实践过程中,我们其实觉得远远不够,因为摄像头安的越来越多,比如过去两年前的智能汽车上面,我们可能只安装了主要的前摄,但现在我们不仅仅按上了多个前摄,还有一些侧视和后视,当多个摄像头进行对现实环境的感知,如果我们还用上一页的方法,其实就会对每个摄像头都做一层独特的处理任务去识别障碍物,通过用后融合的方式再把现实世界给描绘出来。
虽然这种方式现在来讲比较成熟,但是也存在很多问题,遮挡、连续性都存在很多问题。所以我们也在尝试使用一些新的方法,是tensor map的一种方式。所有的传感器我们一开始还是会建立一个相对比较统一的主干网,利用它可以进行多模态转换的算法,比如transformer,我们可以把传感器里边传回来的信息,建立在这样一个矢量空间里,就是我们说的tensor space的矢量空间。基于这样的矢量空间,我们再做一些特征处理,加上时间的因素,就会把时空连续性统一起来,有了这样的时空连续性,在这些基础之上,再用多头的任务网络去做刚才大家所提及的车道线、道路边界、动态障碍物的识别。
这种方式他就会把时空统一在一起,我们自己叫做4D vision一种识别,可以解决时空的连续性,在识别效果上面也会发挥越来越大的作用。这个是目前我们在感知层面开展和实践的一些工作。当我们用一些感知的方法把客观现实感知出来之后,我们再来决策,再来理解这个事情,然后来决策究竟该怎么样进行驾驶,这就是我们所提及的认知智能。
在认知智能方面,我们在2020年早期就提出了自己的安全模型,相当于一种公理性的推演方式。首先先设定系统要解决的问题,解决的目标,以及在这个系统里最基础的公理和假设,然后再去用不同的方法进行推演、实践,然后得到想要的目标。
如果大家过去看过一些类似几何原本的,基本过去的逻辑思考方式,推演方式都是这个模式。我们把这个模式建到了现在最不容易被解释,最多样化,相对来讲最复杂的认知智能目标里,我们希望用这种方式在应用实践、实例上,能够在认知智能上面解决更好的问题,能让大家更高效安全的行驶。
所以我们在实践过程中,从家开到公司这段路上会自动化聚类成几个比较典型的场景,比如过红绿灯、过隧道、跟车,或者是说车辆比较密集,或者有行人等等,这些其实都是可以被自动化聚类起来。在有了一些自动化聚类之后,就可以针对每一类再做具体量化的描述和分析。
比如对于跟停这一类,就可以把他的过程进一步数据化,比如在这一页里边他所表现的是两种跟停方式,当前车开始到停止过程中,作为后车的速度,减速度,姿态变化,把他用数据化的形式刻画出来。在有了这种刻画之后,我们就可以了解和学习在不同前车的状态之下,后车的这些控制系统具体可以分成几类,然后再做进一步的子类里边的优化。
另外,在认知过程中做了更高维度的实践,刚才先是大类,再从大类分成小类,一类类的分析下来,另外更高维度类似于模仿学习,我们和一些院校也在合作,怎么把模仿学习介入到整个认知智能中。最后通过司机或者大多数司机在处理某个场景时,他更加全局的驾驶行为方式,把它学习到我的系统里,来提升整个认知智能的水平,这就是我们现在也是在尝试的一种方式。
同时我们把强化学习也放到我们认知智能里,实践了多种强化学习的算法,通过观察它的收敛速度,得到的积分,或者他最远能开多远,在这个过程中他究竟得到了什么样的回馈,然后选出更适合我们当前情形强化学习的模型和方式,这些都是被我们应用在认知智能上面一些实践方法上。
有了感知智能和认知智能后,我的车在环境下怎么开就确定了,接下来要解决的问题是究竟哪种算法在现实实践里对于用户体验来讲更好?其实就是我们接下来要说的自动验证。
实际我们在验证过程中要覆盖尽量多的场景,比如不同的光照,不同的天气,以及不同曝光的程度,这些场景都要去验证。但如果只看实车验证,这件事的效率就很低了,所以我们用了一些感知照片自动生成的方式,来做感知、照片识别的能力验证,这样效率就会高一些。
同时,大家可以看到我做的视频,在测试过程中,他所遇到的现实环境,把它还原到我们的仿真引擎里,然后再建立一套同时平行的虚拟环境,有了这样环境的建设之后,再去迭代算法,实践算法就会变得更快。这是去年年底的时候,我们在北京顺义一段路上的测试视频,我们的能力就是通过性和舒适性,试乘过我们车辆的朋友都说我们的进步很快,很重要的原因是我们加快了整个自动验证的能力。
不仅要在晴天做仿真验证,我们还可以在仿真引擎里变成各种各样的天气,雨天,雪天,大雾天,不同道路摩擦系数,不同的感知程度,去验证算法的泛化能力,去加快我们的迭代。
所有的这些感知、认知、验证,更快的迭代都需要一种环境。这是我刚才提及的迭代速度很重要的一种考量。
同时,我们认识到车辆安装的传感器越来越多,安装的camera像素也越来越高,从一百万到现在的两百万的,而我们主流的车辆已经达到了八百万。相信在明年或者后年,明年应该就会出现1500万像素这样的摄像头配置到车上。像素越来越高,而且他是在连续不断的进行数据采集,我们觉得人类记录的数据正在从过去简单的简笔画,到文字,到现在连续大量的图像转变,这种转变所带来的是图像存储和计算规模将占据主导。
如果过去网页里边人文记录的电子信息大部分都是文本信息,随着移动手机的加入,到现在智能汽车的加入,图像的存储量和结算量一定会越来越高,会超过过去文本的计算量,由此对于图像的存储和计算会带来新的革命。我们看到业界上面很多芯片,或者很多存储,他所解决的都是大量的图片存储,大量图片的吞吐和图片的计算所带来的新的挑战,解决了这些新的挑战,应该就会在未来市场里有一席之地。
于我们而言,我们也会建立一套MANA的超算中心,我们现在也在跟很多合作伙伴不断的沟通,请他们帮我们建立更加适合自动驾驶,更加适合MANA的超算中心,以此加快我们整个能力迭代的速度。
毫末智行最新产品规划
所有的这些能力都会集中到近期的一个产品上面,叫做小魔盒3.0,它应该会在今年上半年进行量产。下个月,在毫末新一届的AI DAY上,也会公布进一步的SOP实践计划和当时的能力表现。
这个域控制器应该是在今年量产乘用车里算力最大的一款,会达到360T,整体的高速缓存也会非常多,我们现在能做的端到端图片试验基本会控制在30毫秒以内,整个域控制器会满足车规级,它所解决的更多是城市NOH,在城市中的导航。
那我们的产品就可以帮助你进行比较高级的辅助驾驶,包括各种路型的自动通过,比如二变三,三变二,多变少,少变多的车道变化,以及路口变化,包括正十字路口、对不齐的十字路口、三岔口、五岔口,各种各样的路口,在我们现在的验证过程中都是可以通过的。同时,在城市里还有比较复杂的交通参与者,包括汽车、行人、二轮车,大型的公交车,这样会对我们的环境感知提出更高的要求。
在城市中还有一个相比高速不太一样的地方,就是整体车速会比较慢,基本在60公里,其典型的特征是起停比较多。怎样能够更好的控制起停,以及让变道成功率变得更好,都是我们现在面临的挑战和正在解决的问题。
我们也推出了一个未来一年的产品路线图,在今年上半年会推出城市NOH,叫HPilot3.0,下半年会做进一步的迭代,把全场景打通。明年还会推出辅助驾驶能力更高的HPilot4.0,同时还有一个新产品叫做HSD。