Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

顾维灏干货分享:城市辅助驾驶的六大技术难题

演讲 / 顾维灏

编辑 / 华卫

经历了硬件驱动、软件驱动的自动驾驶,现在似乎正逐步走向数据驱动。落地过程中,面对城市等复杂多变的交通场景,同时拥有传感器系统和感知算法的车辆仍旧无法完全应对出现的Corner Cases。在此情况下,海量数据被业内认为是一个新的突破口。

9 月 13 日,在第六届 HAOMO AI DAY 上,毫末智行CEO顾维灏发表主题演讲《毫末和自动驾驶的3.0时代》。在演讲中,他称「以数据驱动的自动驾驶3.0时代已经到来」,接着介绍了辅助驾驶系统在城市道路上遇到的场景难题及技术挑战,并通过毫末智行MANA数据智能体系的能力进化,解析了城市NOH在技术层面的可行应对方案。

图片

以下为顾维灏在第六届 HAOMO AI DAY 的演讲内容,Auto Byte进行了不改变原意的编辑、整理:

城市导航辅助驾驶场景是当前自动驾驶功能的核心突破点,也是兵家必争之地。然而,面对城市场景远超预期的复杂性,系统面临的技术难度呈倍数级增长。

顾维灏表示,城市道路主要存在4类场景难题,主要包括城市道路的不定时养护、部分路段的大型车辆密集、周围车辆行为导致变道空间狭窄、城市环境多样。

要解决上述难题,技术层面需面临六大挑战:如何在自动驾驶领域应用大模型、如何让新数据发挥更大的价值、如何使用重感知技术解决空间理解问题、如何利用人类世界的交互接口、如何让仿真更真、如何让车运动起来更像人。

为应对这些挑战,毫末智行从感知智能、认知智能等方面,对MANA数据智能体系的学习能力、拟人能力以及交互能力做了更新升级。

一、如何在自动驾驶领域应用大模型?

在自动驾驶中应用大模型,业界常采用的方式是监督学习,不论是简单的单任务模型,还是复杂的多任务模型都属于这一范畴。

图片

顾维灏表示,「虽然我们有自动标注的手段,但样本标注的时间成本和金钱成本还是很高。我们需要有一种能够直接使用大量无标注数据的方法,这样才能更高效地发挥出毫末智行在数据规模方面的优势。」

因此,他们最终选择的方式是:「将所有的感知任务backbone都统一,然后利用无标注数据先训练好这个统一backbone并锁定,再用标注样本来训练模型剩余部分。」

图片

毫末智行是以BEV结构下的3D空间重建一致性为目标,去做Backbone的预训练。相比一般的mask重建图片或视频的训练目标,这种基于3D空间一致性的自监督训练能够更有效迫使模型理解道路场景的三维结构,从而更好地适应自动驾驶的各种感知任务需求。

据顾维灏介绍,MANA通过使用大规模量产车无标注数据的自监督学习方法打造模型效果,相比只用标注样本做训练,训练效率提升3倍以上,同时精度也有显著提升

二、如何让新数据发挥更大的价值?

解决了大模型,下一步就要考虑大数据的问题。当数据越来越多,里程达到上亿公里时便会有新的挑战随之而来:在存量数据规模巨大的前提下,如何让模型能够既对新场景保持敏感,又不会陷入可怕的「遗忘性灾难」?

图片

在顾维灏看来,最普通最直观的做法就是用全量数据再次精细地训练模型,但这种做法太贵、太慢。

为此,毫末智行构造了一个增量式的学习训练平台。在训练过程中,他们并不使用全量存量数据,而是抽取部分存量数据加上新数据组合成一个混合数据集,且训练时要求新、旧模型的输出尽量保持一致,尽量拟合好新数据

顾维灏说,「相比常规做法,我们达到同样的精度可以节省80%以上的算力,收敛时间也可以提升6倍以上。」

三、如何使用重感知技术,

解决空间理解问题?

在地图使用上,毫末智行选择了「重感知轻地图」的路线。他们在城市里实现导航时,自动驾驶只用和人类驾驶员一样的普通导航地图,而不依赖业界常用的高精地图。

顾维灏解释,选择这条路线的一个主要技术原因是,在城市场景里道路环境发生变化的频率远高于高速场景,目前城市道路的高精地图的更新频率跟不上道路环境的变化。如果把高精地图看作传感器,其置信度有一些问题,不一定什么时候、什么地方就会失效。

图片

具体地说,毫末智行的解决方案就是使用Transformer来建立强感知的时空理解能力。他们用时序的transformer模型在BEV空间上做了虚拟实时建图,通过这种方式让感知车道线的输出更加准确和稳定,在这个时空下对障碍物的判断也更加准确。

「实时建图技术中常用的综合长时间多帧信息来消除抖动,稳定递推的思路还是非常有用的。」顾维灏说。

图片

现场,顾维灏用视频示意了transformer实时构建的过程。如图,右侧是6个摄像头的输入,左侧是实时构建的结果;视频中,红色是车道线,绿色是道路边缘,蓝色是人行道、停止线等其他道路标线。

他表示,「如果时间足够长,我们也可以还原出整条道路。使用强大实时感知能力,我们已经可以解决部分道路模糊、复杂路口和环岛等问题,整个过程只需要普通导航地图里相对可靠的拓扑信息即可,就像自己开车一样。」

四、如何利用人类世界的交互接口?

过去,自动驾驶系统都是用传感器感知和算法预测周围交通参与者的意图。而当车辆进入城市环境,交通参与者的活动变得更加复杂,预测的挑战也更大了。

图片

顾维灏谈到,其实在当今现实世界中,从道路到车辆,整个交通系统在设计时考虑的都主要是满足人类的需求。如果自动驾驶系统具备适配和使用人类世界交互接口的能力,那将事半功倍,可以更自然地融入实际交通环境,为人们提供舒适流畅的驾驶体验。

「对于交通参与者运动意图的预测,刹车灯和转向灯的识别就提上了重点日程。」

MANA通过升级车上感知系统,加入了对车辆信号灯状态的专门识别,包括刹车灯和转向灯。

五、如何让仿真更真?

仿真主要有三个层次的工作。首先是基础仿真能力,即仿真环境和运动的基础能力,主要衡量的是精准性;其次是构建场景的能力,主要看的效率;最后是定义场景的能力,主要看有效性。

在之前的AI DAY中,毫末智行已分享过仿真的前两层能力。此次,顾维灏重点分享了第三层的能力,即如何更有效定义场景,特别是城市中最复杂的场景——城市路口。

图片

针对这一场景,MANA在仿真系统中引入了真实交通流场景,包括前车侵入、压线汇入,自行车和行人避让等各种复杂情况。

毫末智行通过和阿里及德清政府合作,利用路端设备将路口处每时每刻的真实交通流都记录下来,再通过log2world的方式导入到仿真引擎里面,加上驾驶员模型之后,就可以用于路口场景的调试验证。

另外,顾维灏提到,实采的真实交通流场景中,大部分场景的重复度比较高。对此,他们用交通环境熵计算场景价值,挑选出高价值场景转化为仿真测试用例,提高了整个产品的通过性。

六、如何让车运动起来更像人?

毫末智行发现,随着测试的深入和数据的累积,过去用的分场景微模型方法渐渐显露弊端,有的时候运动起来太机械,舒适感不足。对此,他们借鉴了多模态大模型的方法来更好解决认知问题,让系统的动作更加拟人,具备常识。

图片

其具体做法是,对覆盖海量人驾进行深度理解,构建自动驾驶场景库,并基于典型场景挖掘海量司机的实际驾驶行为,构建taskpromt,以训练一个基于时空Attention的驾驶决策预训练大模型,使得自动驾驶决策更像人类实际驾驶行为,实现自动驾驶决策的可控、可解释。

顾维灏指出,在路口左拐、右拐等各种复杂城市场景中,毫末NOH不但能结合实际情况选择最优路线保证安全,还能学习人类驾驶特点,给出最合理的行为序列和参数,体感更像老司机。

此外,基于大模型训练对算力的巨大消耗需求,毫末智行自研了超算中心,目标是满足千亿参数大模型训练100万Clips数据,将整体训练成本降低200倍。

图片

「毫末城市NOH是更懂中国城市路况的导航辅助驾驶。」顾维灏表示,毫末城市NOH采用「重感知、轻地图、大算力」技术路线,并在MANA的助力下,具备智能识别交通灯、智能左右转、智能变道、智能躲避障碍物-静态、智能躲避障碍物-动态五大功能。接下来,他们还将发布新功能「智慧交通流处理」。

产业
暂无评论
暂无评论~