Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

智驾突围战全面打响,毫末押对三大方向实现“步步为赢”

城市NOA,正在酝酿爆发,大规模的城市辅助驾驶都选择在今年上车。

这次上海车展,明显感觉到都在谈城市NOA(自动辅助导航驾驶),而“ L4 级别的自动驾驶”遭受了冷遇。自去年开始,业界趋于理性,认为自动驾驶变现难、依然有很长路要走,开始选择更容易商业落地的高速及城市 NOA。

因此,高速NOA的规模化、城市NOA的突围,成为今年业内追逐的焦点。尤其自高速NOA成为基本标配后,城市NOA被不少主机厂、供应商看作新的主攻方向。

毫末智行董事长 张凯

“重感知,轻地图”路线则成为城市NOA落地的抓手,像毫末出行就是先行者。在2021年的第三届技术品牌日上,毫末智行董事长张凯表示,2022年将是AI自动驾驶商业化分水岭之年,智能驾驶将从高速简单场景渐进到城市复杂场景。

这一路线不过度依赖高精地图,让车辆依靠自身融合感知,完成高阶智能辅助驾驶,实现短时间大范围城市的覆盖。上个月,毫末出行在第八届AI DAY上宣布,城市NOH(等同于“NOA”)即将量产上车,最先落地北京、上海、保定等城市,并于2024年开拓100个城市。

值得一提的是,毫末出行官宣取得长城在内的3个主机厂定点合同,商业化跃升一步。无疑,这打消了外界关于毫末和长城汽车深度绑定的疑虑。

从一系列动作来看,毫末出行已经按下了高阶智驾布局的加速键。

算法路线占上风,戒掉“高精地图依赖症”

本次上海车展上,不管长城、小鹏、蔚来等车企,还是百度Apollo、华为等供应商们,都推出了“重感知、轻地图”的BEV(Bird's Eye View,鸟瞰图)方案,减少了对高精地图的依赖,以此降低高额成本。

自动驾驶的技术路线大方向上有两个:一个是依托包括激光雷达在内的雷达、传感技术在内的硬件技术路线;另一个则是以特斯拉为代表的算法技术路线。

特斯拉的算法路线逐渐占据上风。在马斯克看来,单凭摄像头带来的视觉方案(Pure Vision)就足以让自动驾驶在汽车上发挥作用。

按照业内流行一种说法,激光雷达和高精地图是两根拐杖——靠激光雷达来增强感知能力,靠高精地图来提高规划能力。通过这两根拐杖,就可以帮助车企快速地实现高超前的智能驾驶功能。

近两年,情况逐渐起了变化,众多车企乃至芯片厂商开始不约而同地减轻对高精地图的依赖。舍弃高精地图,主要是为了绕开地图成本和法规方面的制约,加快自身智驾方案的落地节奏。

不完全统计,最近一年,已有包括华为、理想、小鹏等近10家车企或供应链企业表达了弃用高精地图的想法,开始采用“重感知,轻地图”的路线。

去年9月份,毫末智行第六届AI DAY上,毫末智行联合创始人兼CEO顾维灏在介绍其城市NOH量产方案的时候,就明确表示要摆脱自动驾驶对高精地图的依赖;今年3月16日,地平线称今年将推出不依赖于高精地图的视觉高级辅助驾驶方案;

3月末,小鹏汽车也公布了第二代智能辅助驾驶系统——XNGP,按照规划,XNGP有望在2024年达到终极形态,即不依赖高精地图;4月17日,华为发布了AITO问界M5系列高阶智能驾驶版(问界M5智驾版),搭载高阶自动驾驶系统为ADS 2.0版本,基于视觉+融合感知的智能驾驶方案,它将不依赖于高精度地图……

业内不少人都认为,高精地图妨碍了自动驾驶进城,而丢掉高清地图这根拐杖,高级别辅助驾驶才能跑起来。

不过,中国道路实际路况极其复杂,单纯依靠感知还做不到。大部分都还在使用轻高精地图,并不能完全去高精地图,目前仅华为推出了无高精地图方案。

上海车展期间,张凯接受车云/电动邦创始人程里视频采访时表示,目前都做不到完全不依赖高精地图,即便特斯拉。“就是说在普通导航地图的指引下,能够做到自主换道、左右转,这个对感知提出一个更高的要求。”

他对车云网判断,现在都在走这个路线,毫末比友商早走了半个身位。

有业内人士在车展期间对车云网透露,纯视觉方案非常难,行业里也就特斯拉、Mobileye的纯视觉做得最好。现在很多企业的纯视觉智能驾驶方案,依然重度依赖激光雷达

对于激光雷达的应用,埃隆·马斯克也的确数次给出了自己的判断,认定在第一性原理之下,如果特斯拉能凭借强大的视觉解决方案完成对所有高阶驾驶辅助系统近乎完美的支持,售价高昂且技术突破难度较大的激光雷达是没有市场的。

不过,在这背后有一个共识,那就是多传感器融合大势所趋,现实是深爱纯视觉的特斯拉,也开始加持4D毫米波雷达。可看出,为了安全起见,视觉与激光雷达的结合是更为保险的路线。

大模型加持,背后是智算中心的较量

“重感知、轻地图”的路线可以大行其道,背后是“Transformer+BEV”的技术推动。

2017年,Transformer神经网络模型出现后,奠定了当前大模型领域主流的算法架构基础。ChatGPT实现的技术支撑,靠的是 Transformer大模型及人类反馈强化学习(RLHF)。

早在2019年,特斯拉就将Transformer大模型引入到自动驾驶,是AI大模型应用于自动驾驶的开端。紧接着2021年,基于Transformer,特斯拉用一个BEV架构模型搞定了自动驾驶的感知

张凯告诉车云网,毫末在2021年下半年开始对大模型投入,当时希望用“Transformer+BEV”做一个感知的大模型。

紧接着,去年年底毫末AI Day上,发布了五大模型,包括视觉自监督大模型、3D 重建大模型、多模态互监督大模型、动态环境大模型以及人驾自监督认知大模型。

值得一提的是,“人驾自监督认知大模型”在今年2月已经被升级为DriveGPT,即上个月“第八届HAOMO AI DAY ”推出的首个自动驾驶生成式大模型DriveGPT,起名为“雪湖·海若”,主要解决自动驾驶的认知问题,让汽车掌握高水平司机的开车技法。

毫末智行CEO 顾维灏

这受到了ChatGPT的推动。据顾维灏介绍,毫末先引入了用户真实的接管数据,同时用 RLHF(从人类反馈中强化学习)思路先训练一个reward model(奖励模型),来挑选出更好的驾驶决策。

目前,毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。接下来,DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果。

这些背后,都离不开智算中心的算力加持。智算中心是一个近两年来逐渐兴起的概念。

最早开始智算中心部署的是特斯拉,开始着手打造属于自己的AI计算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。为进一步提升效率,特斯拉在2021年发布了自研的AI神经网络训练芯片D1。

智算中心是自动驾驶发展的助推器,为提高算法模型的成熟度提供了巨大的算力。AI大模型的运用大幅提升了算法的迭代速度,直接缩短了自动驾驶系统的迭代周期。

由此可推断,智算中心会成为自动驾驶企业的入门配置,也是下一个竞争门槛,决定了城市辅助驾驶落地、体验和发展速度。

换句话说,如果没有智算中心,那么自动驾驶训练速度将明显放缓,智能化下半场必定会出局。

这也不难理解,为何头部车企都在建设成规模的大型智算中心。

去年8月,小鹏汽车在乌兰察布建成智算中心“扶摇”;蔚来也在去年底宣布和腾讯云合作,打造智能汽车混合云基础设施;今年1月初,长城汽车旗下毫末智行,联合火山引擎,共同推出自动驾驶行业最大的智算中心MANA OASIS(雪湖·绿洲);今年2月末,吉利汽车集团在湖州长兴县部署的吉利星睿智算中心,目前已接入智能驾驶和车联网实验数据。

毫末智行CEO顾维灏也在AI DAY上详细阐释了建设智算中心的底层逻辑,“自动驾驶对智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的 AI 工程师在这个练武场中能够做出什么大模型,能训练多少大模型。”

为何选择筹建智算中心,而不是直接购买数据中心服务?

“我们测算,智算中心带来的成本优化是惊人的,将达到亿元级别。”这是今年1月,张凯提出的预测。从目前及未来的规划量产规模来看,毫末自建智算中心可节约巨额成本;同时,其带来的效率提升也非常明显。

从现有情形来看,除了需求,降低成本也是自建智算中心的出发点。

据顾维灏介绍,通过大模型训练优化,目前模型训练成本降低 60%,加速比超过 96%,吞吐量超过每秒 40000 个 sample。此外,毫末已实现标注 AI 自动化率达到 80%,大幅提高了标注效率,降低了标注费用成本。

不论是ChatGPT的突破,还是自动驾驶算法的进化,都离不开一个底层逻辑,那就是基于海量数据的深度学习。毫末当前棘手的问题是,还需要更多的装机量以积累原始数据。

毫末智能辅助驾驶HPilot已迭代三代产品。在 2022 年首场 HAOMO AI DAY 上,毫末智行正式发布搭载 HPilot3.0 的“毫末城市 NOH”。据毫末介绍,这也是中国第一个大规模量产的城市辅助驾驶产品。

HPilot在魏牌、坦克、哈弗、欧拉、长城炮等多个品牌近20款车型上实现了规模化量产,从上个月发布的数据来看,毫末用户辅助驾驶行驶里程5000万公里。

作为对比,截至2023年第一季度,特斯拉FSD Beta(完全自动驾驶测试版)系统的总行驶里程,已达到行业前所未有的1.5亿英里(约2.4亿公里),并将随着测试用户规模的扩大实现指数增长。

跳出体系,扩大朋友圈

从堆料到减配,业内在智能驾驶的配置上开始追求“性价比”的转变,也就这两年时间。

今年以来,特斯拉掀起的降价潮,席卷了整个汽车产业。不止主机厂,产业中上游的供应商也被迫卷入这场价格战。

因为城市NOA规模化圈地的趋势不可逆,相关产业链供应商的市场份额争夺战开始加速。更多玩家入场,意味着将进入成本周期。在成本与性能的天平中,不少上游供应商正在围绕“性价比”进行布局。

不少从业人士都跟车云网反馈,整个汽车产业不再像过去一样以高成本盲目堆砌功能和硬件,而是更加关注用户体验和使用场景。

这两年,大厂为了成本控制也想了不少招数。

特斯拉一度为此放弃了毫米波雷达,去年又取消了超声波雷达。2023年,特斯拉Model S、Model X不再使用雷达,改用100%纯视觉自动驾驶。

张凯此前在接受车云网在内的媒体采访时,对此深有感触,这三个月听得最多的一个字就是“卷”。经过一年的探讨,毫末确定了2023年市场的策略,以更低的成本做相应的功能,今年会有新一代的系统推向市场。

“我们内部定的策略,目前系统1/3的成本,能够做到同样的功能和体验。”他说,“对于我们来说,用一个更低成本的控制器,能够把我们目前的所有技术都放上去。另外,还不能降低体验,这对于我们来说是很大的挑战。

毫末一直坚定与车企共创模式,而非供应模式。在张凯看来,科技公司与车企以共创合作的方式开发自动驾驶的软硬件,会成为行业发展的必然趋势。

目前,有两家非长城系的客户选择了毫末的产品,这是一个很大的突破。可以说,打破单一企业绑定,扩大朋友圈,毫末确实迈出了里程碑式的一步。

不过,迫于“灵魂轮”,市面上能叫得上名字的主机厂觉醒了,都想把“智驾灵魂”掌控在自己手中。那么,如何大规模拓展第三方车企,可供毫末出行选择的合作对象还有多少?

现在答案尚无定论,但对于毫末来说,肯定是未来工作部署的重中之重。


入门
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
地平线机构

以“赋能机器,让人类生活更安全、更美好”为使命,地平线是行业领先的高效能智能驾驶计算方案提供商。作为推动智能驾驶在中国乘用车领域商业化应用的先行者,地平线致力于通过软硬结合的前瞻性技术理念,研发极致效能的硬件计算平台以及开放易用的软件开发工具,为智能汽车产业变革提供核 心技术基础设施和开放繁荣的软件开发生态,为用户带来无与伦比的智能驾驶体验。

horizon.ai
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

激光雷达技术

自动驾驶车辆传感器的一种,采用激光扫描和测距来建立车辆周围环境的详细三维模型。Lidar 图像具有高度准确性,这使得它可以与摄像头、超声波探测器和雷达等常规传感器相提并论。然而激光传感器面临体积过大的问题,同时,它的机械结构非常复杂。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

吉利机构

吉利汽车该公司亦为中国最大民营汽车生产企业浙江吉利控股集团有限公司的联营公司,自1997年进入轿车领域以来,已成为中国自主汽车品牌主要厂商之一。

http://global.geely.com/
小鹏汽车机构

小鹏汽车是一家电动汽车生产制造商,致力于应用新的技术、工艺和商业模式,打造年轻人喜爱的智能化电动汽车。汽车拥有低速自动驾驶跟随的功能,并为解决停车难的困扰,开发了包括自动泊车以及远程召唤的功能。

https://www.xiaopeng.com/
推荐文章
暂无评论
暂无评论~