Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

于雷作者

云+端自动选型训练、Swin-Transformer、最高4卡ICU3.0平台,毫末智行的自动驾驶野心曝光!

「唯快不破」的自动驾驶,更要有数据智能的深思考与慢功夫。

「唯快不破」四个字,在当下的自动驾驶行业较量中,是一种战术,也需要极强的资源支撑。截至目前,毫末智行驾驶辅助产品已积累 100 万公里的真实数据,装车量也达到了 100 万辆。这家被比作「中国 Cruise」的公司,正在沿着预定路线快速前进,但仍在量产应用中遇到了新的挑战。


9 月 28 日,与传统观念中发布会的「花哨感」不同,毫末智行第三期品牌日在一种「理工男」的氛围下进行。这场活动更像是一场技术干货分享会,市场情况和量产产品较少被提及,花了更多时间分享有关数据智能的新思考。


「我们发现了大量量产前想不到的情况,现实世界远远比我们想的复杂。」毫末智行 CEO 顾维灝表示,有许多问题在规模化量产后才会遇到,比如车端感知可能遗漏很多潜在的高价值场景,能否挖掘出更有价值的数据,将海量数据训练的比别人更快,将决定谁能占领自动驾驶制高点。

虽然遇到许多诸如此类的意外,但毫末智行搭建的数据智能闭环,仍可解决这些问题。

云 + 端架构选型,高效筛查有价值数据


顾维灝曾表示:「想要真正训练出高普适性的自动驾驶系统,首先必须用更快速度收集到大量真实数据,其次必须有能力快速将数据用于算法训练。」

背靠长城汽车的量产优势,毫末智行能够从用户端获取足够多的原始数据。但而后的步骤更加重要,作为商业化技术,不但要有能力发现高价值数据、快速用于训练模型,同时还要保证这个过程足够经济。

目前,毫末智行每天可产生几千万桢数据,如何找到对当前能力最有价值的数据,成为了能否高效训练模型的前提。毫末智行把找到有价值场景数据的行为叫做诊断,通过云 + 端上模型对照的方式,快速找到有价值数据,以此为核心优化现有模型。


毫末智行在云端和车端部署两个模型,云端模型叫做 Fundamental Model,是一个基于 Transformer 的全任务感知大模型。车端的小模型是 Domain Model,通过灰度测试的模式感知环境信息,但这种这种方式不够完备,可能导致很多潜在的高价值场景被遗漏。

这些遗漏很多都是受到车端模型性能限制导致的误判,因此它们通常也意味着是车端模型的缺点,也是更高效训练模型的方向。

为此,毫末智行通过云端大模型,对比验证车端模型的判断结果,相当于建立了一种对照筛选机制。这种选型可以更高效的找到有用数据,之后再针对这些数据补充足够的样本,训练现有模型。

顾维灝在现场介绍:「通过这种自动诊断,我们可以发现小目标漏检、目标被遮挡和截断。同样,自动诊断也包括收费站、异形车辆、雨天、黑夜的目标漏检问题。」

无监督聚类,全自动训练模型


毫末智行现在已经有了百万公里的真实数据,通过无监督聚类自动在里面找到更多相似数据,先以无监督学习方法将图像向量化,转化为特征向量,然后通过谱聚类将相似的图像聚类在一起。

得到聚类结果以后,会找到大量与问题场景相同类别的相关数据作为正样本相似易混的其他类别数据作为负样本,并且在类别当中只挑选类中心和类边界附近的数据出来提升标注效率。


聚类算法不但具备处理大的数据集的能力,而且对噪声不敏感,支持处理任意形状,能发现任意形状的簇,包括有间隙的嵌套的数据。

另外在数据输入属性方面,处理结果还与数据输入顺序无关,算法可以独立于数据输入顺序进行计算,并有处理多属性数据的能力,也就是对数据维数不敏感。

「通过这种方式,可以有效的与『异源数据』进行混用,提升最终模型的效果。」顾维灝做出总结。另外,这种全自动化的过程,还可以大幅节约人力,保证效率,有利于投入商用。

更适用于计算机视觉的 Swin-Transformer

毫末智行云端平台采用的 Swin-Transformer,复杂场景的感受、观察比传统 CNN 更好,同时也更能兼具训练速度与准召率的平衡。


Transformer 原本用于自然语言处理领域,优势在于利用自注意力机制捕获全局上下文信息,从而对目标建立起远距离的依赖,提取出更强有力的特征。

在数据量充足的情况下,Transformer 可以稳定提升准召率,而 CNN 却由于难以获得足够大的感受野,面对大的数据集存在长尾问题。

现阶段,Transformer 在分类(ViT),检测(DETR)和分割(SETR),三大图像方面的应用都取得了不错的效果。同时,它也可以有效利用海量数据进行无监督的预训练。

但是,Transformer 应用于计算机视觉领域要面临两大难题:固定的 token 尺度无法适应大范围变化的目标尺寸;自注意力机制会带来非常庞大的计算。


毫末智行所采用的 Swin-Transformer 是一种改良架构,通过小图像片元和逐层进行邻域合并的方式构建层级特征表达,将自注意力限制在一定范围内,大幅度削减了计算量,同时也使得非局域窗口间的交互成为可能。此外,毫末智行还在数据并行做出了更多思考。

简单来说,这是一种更适用于视觉领域的改良模型。

但在如今的大模型时代,巨量的模型参数给模型训练带来很大的难度,稍微改动一下网络结构、参数配置、或者是更换数据,迭代一次得到结果的周期是要近百个小时。但这种调整经常发生,严重影响了创新速度。因此,不管是 CNN 还是 Swin-Transformer,优化提速都非常重要。


毫末智行为了提升训练速度,除了常见的数据并行之外,还做了更精细的模型并行方法。

针对 Swin-Transformer,毫末智行采用了数据和模型同时并行的混合方案: 将模型横向拆分,将不同层对应的 block 组,拆分到不同显卡的显存中,腾出空间存放更大的 batch size 对应的向量组。

此外,毫末智行还优化了模型前向计算。当后向传播过程中,中间结果的显存被占⽤,包括 Optimizer States, Gradients Parameters 等,通常可以减少 20%-30% 的整体显存占用量。

顾维灝表示:「基于 Swin-Transformer 的优化效果,整体可以提速 50%-80%。」

CSS+ ICU 3.0,保证模型准确度


在获得更快迭代的模型后,如何保证模型判断的准确度,也是很重要的一点。

「毫末智行开发了语义场景的自动化转化工具和参数泛化工具,可以将 CSS 中场景库的描述文本自动转化为仿真测试场景,并且在合适的范围内离散采样得到巨量的仿真测试用例。同时通过在云端并行,每天可以自动生成一万多个仿真测试用例。」顾维灝对这项技术做出了详细介绍。

可以简单打个比方,如果要做一个无保护左转的仿真验证,系统可以自动调整道路宽度、遮挡等环境信息,以及交通参与者类型、数量和位置,衍化出众多不同的无保护左转测试环境。

据毫末智行介绍,仿真验证的重点是交互过程,这方面可以做到 100% 还原,但场景自动转化还需要看 CSS 库中是否有对应材质。

此外,硬件性能也是决定模型判断结果准确度的因素之一。

毫末智行明年中期将与长城 SOP 800 万像素的产品,可以看清 150-200 米左右椎桶,而且是清晰到纹理细节。目前,市面上主流的还是 100 万像素摄像头。


毫末智行在活动上还展出了自动驾驶计算平台 ICU 3.0,芯片部分是高通 8540+9000 组合,单卡算力达到 360TOPS,未来最多可以扩展到 4 卡,算力可达到 1440TOPS。


该平台已经开始上车测试,顾维灝表示:「Int8 的算力有效率超过 50%,单卡 144M 的高速缓存可以大幅加快 AI 计算速度,也可以同时支撑多个高分辨率的视频流进行实时感知推断,端到端的时延已经低于 30ms。」


另外,毫末智行在高通芯片上也做了很多小模型,主干网是经过优化后的 Resnet50。基于这个主干,毫末智行做了一层多特征融合层,这样后续的车道线和障碍物识别等任务就可以基于共同的特征要素进行,提高了识别效率,降低多次特征计算所产生的负担。


感知输出方面,毫末智行仍采用先判断后融合的松耦合方式,但其要求单张图片也探测到深度信息,有助于提升整体的感知能力。据顾维灝透露:毫末智行部分车端摄像头,也用到了 Transformer。

无论是松耦合还是紧耦合,提升单传感器的感知能力,都是正确方向。

安全是 1,其它是 0

顾维灝表示:「所有的一切都要以安全为基础,安全是 1,其它是 0。」

这种安全是非常系统性的考虑,比如将协同场景安全、功能安全、预期功能安全放在最高层面。不仅通过研发体系优化,保证安全设计,还通过仿真验证、调低接管标准、设计安全冗余等维度,保证全流程的安全性。

同时,顾维灝还透露了他们选择高通芯片也有安全方面的考虑:「打动我们的还有芯片结构,除了 AI 计算的部分,还有车规级的安全设计。」


搭载该芯片的自动驾驶计算平台 ICU3.0 已具备三层安全结构:

  • 第一层是高算力 SOC 芯片上的主功能逻辑以及卫兵系统,会监控 SOC 上的软件错误和 ODD 失效;

  • 第二层是高可靠性芯片上的芯片级监控系统,负责监控 SOC 芯片硬件失效;

  • 第三层是具有独立传感器的预备系统,可以在主系统失效的情况下紧急生效,保证系统的 Fail Operational。



顾维灏曾提出,自动驾驶产品为王、规模制胜。他表示,规模是所有自动驾驶制胜的必然基础,算法再强也不能取代数据的不够。3 年时间,毫末智行辅助驾驶系统已达到百万装车量,积累百万真实数据。

打好基础,毫末智行视角转向了数据智能。快速奔跑背后的深思考与慢功夫,让毫末智行正在完成从「感知智能」到「认知智能」的转变,实现自动驾驶的新布局。
产业自动驾驶毫末智行
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

谱聚类技术

在多元统计和数据聚类中,谱聚类技术利用数据相似度矩阵的谱(特征值)在较少维度聚类之前执行降维。 相似性矩阵作为输入提供,并由对数据集中每对点的相对相似性的定量评估组成。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

图像聚类技术

聚类是一种运用广泛的探索性数据分析技术,直观上讲,聚类是将对象进行分组的一项任务,使相似的对象归为一类,不相似的对象归为不同类中。当聚类对象是图像的时候,就是所谓的图像聚类。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~