加州自动驾驶脱离报告, 不可轻信 | 深度

撰文 | 宇多田

漏洞满满的报告,可以拿来做技术实力排名的参考?

几天来,大众对 2018 年加州自动驾驶路测脱离报告的关注度,堪称前所未有。

这不仅仅是因为自动驾驶的商业化进程正在受到空前关注,也因为报告中的榜单聚集了迄今为止数量最全的62家自动驾驶乘用车公司。

所以说,对每家公司自动驾驶技术水平和市场地位品头论足的时候到了?

从加州车辆管理局(DWV)发布的这份报告内容来看,涵盖的数据指标非常丰富,包括每家技术公司在加州测试的自动驾驶车辆数目、手动接管次数、全年自动驾驶测试里程数,车队规模等等。

但其中最受关注的一个参考指标,无疑是 MPI/MPD

(Miles Per Intervention/Miles Per Disengagement,叫法不同但意义没差,可指代「自动驾驶汽车每行驶多少里程才需要人工干预一次」)

不少人认为,系统向人类交出汽车控制权的频率越高,在很大程度上代表着「这系统及其背后所在公司的技术水平越低」(至少正相关)。

所以我们不难理解为何报告一出,不仅让关于苹果公司的「唱衰论调」有了新的谈资,也让发生过一次致命车祸并解散部分团队的 Uber 坠入更深的谷底。

因为这一指标的排名,两家公司分获倒数第二和倒数第一。

图1:根据报告数据,苹果每跑 1.1 公里就要接管一次;而 Uber 则是每跑 0.6 公里被接管一次

当然不止这两家经历了口水的洗礼。

擅长在海量信息中寻找蛛丝马迹的海外媒体们又发现,这份文件简直是一份「最强打脸文本」。

诸多车厂做出的承诺,被这份文件证明是立过的又一个 flag。

譬如,无论是测试公里数,还是接管频率排名都仅次于第一名 Waymo 的通用旗下自动驾驶技术公司 Cruise,就被彭博社挖出「公司在 2018 年的实际路测里程并不符合在 2017 年做出的承诺」:

「2017 年底 Cruise 联合创始人 Kyle Vogt(前首席执行官,现在为公司首席技术官)曾告诉投资者,公司将实现每月 100 万英里的无人驾驶测试汽车行驶里程;

但加州报告却暴露了一些东西——

2018 整一年,Cruise 仅在加州的行驶里程还不足 45 万英里(目前公司选择路测的地点都较为集中,多为加州、亚利桑那州等地区)。」

图2:数据,来源:2018DWV自动驾驶脱离报告。

但是,这个所谓的重要指标「脱离接管频率」,真的能被直接用来衡量公司的技术实力吗?

事实是,如果你单凭这个指标想看出啥来,那么其价值顶多只够讲述一个关于「某公司基于纵向时间轴健康成长变化」的故事。

譬如,根据报告显示,Cruise 在 2018 年平均 5200 英里要进行一次人工干预,这与 2017 年相比,当然是一个显著的进步,因为当时这个数字是 1230 英里/次。

然而,如果作为对公司与公司之间的横向比较指标,你不得不承认,这里面存在着不可忽视的缺陷。

而且,极具误导性。

「脱离」定义模糊,公司可在合理范围内修改数据

随着这份「脱离报告」影响力的逐年增长,苹果曾在 2017 年 4 月公开指责过该报告背后「测试规则」存在的种种漏洞,对促进大众接受自动驾驶发挥不了什么作用:

「对于哪一种情形可以被判断为『脱离』,加州的这套评价系统显然因主观因素太多而不够清晰和透明。

我们同意需要把『防止违反交通规则』和『成功制止一场车祸』作为这一概念的重要度量场景,但是,加州给这一概念额外增加了很多不必要的解释。」

简而言之,苹果嫌加州对「脱离」的定义太过严格。

根据加州车管局(DWV)的规定,自动驾驶应用场景下的「脱离」有大体两重含义:

  • 被动脱离

自动驾驶系统检测到故障无法继续执行任务时,测试车辆的自动驾驶模式需要被迫推出,并要求安全员立即进行接管。

  • 主动脱离

虽然自动驾驶系统并未检测到任何故障,但安全员在监控过程中做出「不安全」判断后主动触发自动驾驶模式退出机制,并手动接管车辆。

而苹果认为这两个概念过于模糊,以至于多种并不会影响车辆安全的场景都被归到「脱离」范围内:

第一,在路测过程中会出现「操作限制」是很正常的。因为每家公司对测试车辆的功能设置不尽相同。

譬如,有公司就给车辆的导航进行了特殊设置——在进入某工业区时,必须把控制权主动交给驾驶员。

第二,软件或某一传感器出现的不影响系统安全操作的小 bug。

由于当下自动驾驶汽车都会设置多层安全冗余,因此单一板块出现的小问题不应该归为「脱离」。

第三,安全员酌情做出的决定。

有些安全员行事非常谨慎(特别是 Uber 由于安全员的一定疏忽导致致命车祸后,相信这给所有安全员敲响了警钟),会在很多安全场景内接管无人车控制权。

譬如,有时候系统判断过快或操作过快时,有安全员会因为紧张感不由自主地进行接管。

因此,苹果即便从 2017 年到 2018 年一直按照加州的规定,勤勤恳恳记录着所有符合定义的脱离次数。

但在 2017 年 7 月以后,他们主动将「脱离」的概念进行了更加细节化的「修饰」,并给自己的报告加入了一项新指标——「重要脱离」场景。

就像刚才上面说的,苹果认为只有真的触及到人身安全和交通法规的场景才是「重要脱离」。

图3:苹果在2018年7月开始引入「重要脱离」指标

因此,如果按照苹果自定的新指标,那么自 2018 年 7 月行驶的 56135 英里里程中,只遇到过 28 次「重要脱离」场景,这无疑会大大提升苹果的排名。

看到这里你应该明白了什么——

加州这份脱离报告的所有数据都是「只要合乎规范,自己『改动』一下也没什么问题」,没有任何责任机制可言。

然而,在这里我们势必要为苹果美言几句:

尽管苹果认为加州 DWV 对「脱离」概念定义过于模糊,但仍然认真地做了多达 18 份文件(绝对是提交信息最详细的公司之一)提交上去,并对自己所定义的指标写了一份 cover letter,进行了附加解释。

与之相比,还有公司则抓住了这个模糊定义所赋予的机会——

既然字面意义是宽泛的,但至少其透出的法律精神是狭窄且明确的(虽然这也是苹果一直强调的):

要么是你技术失败导致的,要么就是安全员为确保安全才接管的。

那么其他的我不说不就得了?

通用 Cruise,就是完美利用了定义缺陷的正面教材。

(再次感叹苹果的「傻」,甚至有投资者和专家认为苹果是故意让人觉得自己技术不好以忽视自己的技术水平……)

2017 年 11 月 22 日,有国外网友曾在 Twitter 上发文称,自己看到通用 Cruise 的一辆测试车闯了红灯。

但让人惊讶的是,这件本可能在社交网络上迅速蔓延、甚至会让 Cruise 遭受抨击的「丑闻」竟然没有多少人关注。

如果按照加州 DWV 对「脱离」的定义,其实这个事件是符合界定的。

但根据 Cruise 提交的 2017 年脱离接触报告,11 月 22 日那天的「闯红灯」事件并没有被记录在案。

后来有媒体追问此事,Cruise 的回复更是出乎意料——

那辆车根本没有闯红灯呀。

「当车穿过人行横道时,交通灯恰好从黄色变成了红色。因此安全员对车辆进行了手动控制,开过了十字路口,以免阻塞人行道。」Cruise 的发言人当时强调,

「根据加州对『脱离』的定义有两种,一个是『为了直接安全而接管』,另一个是『系统发生故障而接管』,而『阻塞人行道』既不符合『为了实现直接安全』,也不符合『系统发生故障』。」

(……感觉被绕进去了)

好吧,这个解释有些令人困惑,但好像也找不到什么合适的反驳理由。

不过,Cruise 的做法无疑再次印证了一点——

怎么来定义自己公司发生的「脱离接触」,可以在合理的范围内随心所欲。

所以说,不曾被有效监管的数据,参考价值十分有限。

「控制变量」截然不同,公司之间如何比较?

我们都知道,如果做一项科学的比较性实验,除了实验主要研究的那项变量外,需要对其他所有影响实验结果的变量进行有效控制。

对应到 MPI 的排名上,也是同样的道理。

然而,由于各家公司提交的均是一份「自我评价」,因此,从客观因素(诸如气候、天气、路况),再到公司配置(路测时间跨度、路测规模、车型、自动驾驶系统迭代情况,无人车等级),甚至是 MPI 的计算方式……

所有影响 MPI 指数的条件没有一项是有统一标准的。

举一个最简单的例子,在复杂路况中进行测试的 L4 无人车与在平坦道路上行驶的 L2 级无人车,都取得了一样的 MPI 指数,但是否能相提并论?

值得注意的是,这次中国多家技术创业公司也榜上有名,因此,不少媒体将其作为重要的技术排名榜单进行解读。

然而,仅时间跨度与路测环境,这 5 家中国上榜公司的叙述就有明显差别,更不用说车队规模、车型、系统迭代以及调试情况也不尽不同,因此,根本不存在「可比性」。

图4:数据来自2018加州自动驾驶脱离报告,制图:宇多田

通过仔细阅读这五家的报告,我们发现由于每家报告内容侧重的角度不同,很难将这些公司在条件统一的前提下进行单一维度的对比。

譬如,Pony.ai 就在自己的报告中着重强调了测试环境的复杂性系统迭代对提升 MPI 指数产生的作用:

「在 2018 年上半年,我们在加州路测的覆盖范围从工业区逐步扩展到居民及商业区域,对 MPI 的提升和系统迭代有一定帮助;另外,系统迭代是让 MPI 显著提升的关键。」

很明显,下图中Pony.ai的MPI走势也反映出一个圈内默认的规律:

特别是在 L4 无人驾驶领域,技术成熟度与路测的总里程数(这项指标一直很受重视)成正比关系,里程数越高,技术成熟度越高。

图5:MPI与路测里程都在2018年下旬都有了明显提升。数据来自Pony.ai提交的2018自动驾驶脱离报告

与之相比,此前通用Cruise在解释为何没有实现曾经承诺过的 2018 年百万路测里程数时,也曾强调,比起单纯的积累里程,他们想优先提升路测环境的复杂性——

「在复杂的城市环境中扩大测试资源,对于开发安全的自动驾驶汽车来说,比在简单的郊区环境中跑上千英里去达到任意的英里数目标更为重要。」

这意思已经很明显了:

在路况较好的高速公路上测试的确可以做到提升里程数的同时做到长距离无脱离,但你要的是一个数据,还是自动驾驶系统性能的显著提升?

而AutoX 的报告,虽然也详细指出了系统迭代以及测试难度的重要性,但其每个系统的测试时段与测试效果都显示出了更加复杂的情况。

图6:数据来自AutoX向加州DWV提交的2018自动驾驶脱离报告

从图中我们可以看出,在 22 个月的时间跨度内,AutoX 的系统共迭代 2 次。

很明显,第一代系统(V0)与第二代系统(V1)的 MPI 数值相差悬殊,而有趣的是,第三代系统V2的MPI指数还不到V1的一半。

原因就在于,对V2 设定的测试难度才是最高的。

而在加州DWV的MPI总排名,对三个在不同时段表现不同的系统做了平均计算,这显然会折损一定的精准性。

「测试难度主要与系统能力相关。所测试的无人驾驶系统是任意点到点,还是固定路线?

有无高难度自动驾驶功能,如无人驾驶的经典难题:如何汇入交通拥堵的大转盘?

这些都能反应一家公司的技术实力,也很容易被人忽视,在总体报告中就更不会呈现。」

AutoX 在接受机器之心采访时表示,报告中的 V1 系统指代「点到点测试系统」,已在加州已连续测试超过 1 年,路测方法与 Aurora 类似,测试员无规则任意点选路,多涵盖高难度挑战道路,包括市区交通拥堵地段等等。

而 V2 作为「挑战测试版系统」,是公司测试环境与测试难度最高的系统版本。

「技术人员会在大雨天气,繁华商圈,交通高峰期连续换道、进出转盘 round-about 等等场景对 V2 系统做反复测试。」

另外,AutoX 也是唯一一家披露了三种测试车型的技术公司。

图7:数据来自AutoX的2018加州自动驾驶脱离报告

不过,最能暴露这份报告「缺陷满满」的是图森的数据。

之所以特地将这家公司在图4中重点标出,是因为这是一家商业路径与其他家有显著差别的无人重卡技术公司,而且他们提交的是 2017 年为期两周的数据。

这也是为何在加州总报告关于 MPI 以及路测里程的排名中,你没有发现图森的身影。

就像一群兔子在进行无规则赛跑,突然又混进了一头老牛一样,主要围绕「无人重卡」进行测试的图森怎么也没想到,自己在前年的两周数据,也让自己进入了「2018 年各大公司汽车测试数量」的榜单里。

没错,这个数据只能说明图森曾经有两辆在加州测试过的林肯乘用小车。

「其实这个排名跟我们没有多大关系,」在报告发布后,图森接受了机器之心的独家采访,但并不愿意对这份报告做出太多评价,因为自己提交的那两周数据跟自己的主营业务八竿子打不着。

「这是我们在 2017 年提交的两周乘用车测试数据,但不知道为何 2018 年还放出来,数据肯定是过时的。」刚刚因 9500 万美元 D 轮融资晋升为独角兽的图森显然有点哭笑不得,

「另外我们的主营业务是无人重卡货运,已经在亚利桑那州开始商业试运营,后者才是我们的主要路测阵地。」

实际上,处于同一赛道,以自动驾驶出租车为落点 Pony.ai、Roadstar 和文远知行也有与图森一样尴尬的情况——

很大一部分路测工作其实放在了加州以外的地方(看图4)。

而加州的路测数据,仅仅是他们很小一部分样本量。

此外,这几家公司也在报告发布后接受我们采访时承认,MPI 受到的干扰因素其实很多,而最终技术的好坏,还是要取决于客户的评价。

「测试与运营是两个不同的状态,会对人工介入产生较大的影响。另外,每家公司都有自己系统的调试标准以及安全员的接管标准,这也跟乘坐体验密切相关;

当然,气候和天气也很关键,譬如亚利桑那州就全年阳光充足,气候干燥,雨雪天气很少,能够降低自动驾驶汽车传感器出现问题的概率。」

文远知行在这里提到的「调试标准」,可以以自动驾驶圈内很多家测试车总是出现的「假阳性」现象作为参考——

此前坐过通用及 Waymo 测试车的乘客曾抱怨过,即便前方没有任何安全威胁,车辆还是会突然踩下刹车而停下来,原因就是系统被技术人员过度调试了,不管什么情况都会猛踩刹车「提醒」一下司机和乘客。

而 Uber 的致命车祸则是一个反例,正是因为系统被调试地不怎么敏感,外加安全员关键时刻不给力,才最终酿成大祸。

因此文远知行认为,MPI,只有辅以「路测车辆数、自动驾驶里程数、长尾场景破解能力、乘坐体验」等等多项指标,才能对一家公司的技术实力做出客观判断。

而以外卖和物流为商业落点的 AutoX 更是直言不讳地指出,每家公司计算 MPI 的方式如果加入「水分」,就会导致结果出现很大的差异

譬如,有些公司处理 MPI 数据的方式是这样的:

将每个人工干预的数据均导入仿真器,由工作人员主观判断一下在那个场景里安全员不干预是否可以被接受,假如可以接受,就判定为零人工干预。

「部分初创公司在总里程数明显低于谷歌 2016 年里程数的情况下,报出与谷歌 2016 年类似的 MPI,侧面反应各公司 MPI 的计算方式有所差别。」

图8:2016年谷歌自动驾驶部(Waymo前身)的全年行驶里程为635868英里,“脱离”124次,0.2次/千英里,测试车70辆。但值得注意,2016年与2018年的测试难度和自动驾驶技术水平已经不能同日而语

如此总结下来,在未统一其他变量之前,绝不能单凭一个 MPI 数字对一家公司的技术水平做出评价,更不可能根据一份报告对「谁强谁弱」做出绝对的判断。

如果要做横向参考,只有一句话,请将业内的所有指标「搭配食用」。

「其实加州 DWV 在报告上传要求中有说明,除了系统脱离报告,还要标明脱离时的环境和测试条件,当时的位置和环境,气候提耸肩,以及每台车在公共道路条件下行驶的里程。」Pony.ai 提醒我们,

「尽管这份报告有各种不完美,但实话说,目前全球似乎没有更好的观察维度了。」

当然,有公司填的详细,有公司则一带而过,最后仍然取决于公司自己的「品格」。

所以,作为一家负责任的科技媒体,我们的建议是,如果你对哪家公司感兴趣,建议你去找出这份报告来细细品读。

因为,无论是披露的各项数据还是路测细节,不仅能够看出一家公司的成长轨迹,还能从侧面反应出一家公司的技术偏好与技术态度。

产业自动驾驶科技趋势报告
2
相关数据
Waymo机构

Waymo是Alphabet公司(Google母公司)旗下的子公司,专注研发自动驾驶汽车,前身是Google于2009年开启的一项自动驾驶汽车计划,之后于2016年独立。2017年10月,Waymo开始在美国亚利桑那州的公开道路上试驾。2018年12月,Waymo在凤凰城郊区推出了首个商业自动乘车服务Waymo One。

http://www.waymo.com/
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

迭代 技术

模型的权重在训练期间的一次更新。迭代包含计算参数在单个批量数据上的梯度损失。

假阳性技术

假阳性是指模型因为种种原因把不应该分类成特定情况的人/物错误地分类到了该分类的情况。

自动驾驶汽车技术

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

暂无评论
暂无评论~