无人车,请「礼貌」驾驶

随着无车人技术的不断进步,我们越来越能在路上见到各种进行路测的无车人。大量的人机交互在发生着。那么怎样才能实现更安全高效的人机交互呢?我们既不希望无车人太过鲁莽,也不希望它过于保守,我们希望它能够产生与人相似的行为,从而使得人机交互的过程更为顺利。如何才能做到这一点呢?在本文中,我们将设计一种方法使得无车人可以像人一样懂礼貌。

首先,容我先来介绍一下无人车的基本工作原理。通常,无人车通过Lidar、Radar、camera等感知系统来实时测量外部环境的状态,并基于当前或者历史状态对其他道路参与者(行人及由人驾驶的车辆)的行为进行预测,然后按照我们(工程师们)设定的奖励或者优化机制来规划一条安全、高效且舒服的路径。因此,无人车的行为决策取决于设定的奖励/优化机制。过去,我们更多的关注无人车自身的安全、高效和舒适性(我们称之为“自私型规划”),而忽视了另外一个重要的因素:人类社会的规范和人类决策的非理性。自私型规划忽视了无人车的行为对其他道路参与者的影响,从而容易产生不符合人类常识的行为决策,使得与其交互的其他道路参与者感到莫名其妙或者不舒服,进而作出一些不理性的行为。这一系列的结果都大大降低了自私型规划的安全性。

因此,针对“自私型规划”的各种问题,我们提出“礼貌型规划”方案:无人车的奖励/优化机制中不仅包含了自身的安全、高效和舒适性,而且考虑到无人车的行为决策对其他人造成的不便利。最终产生的路径是两者之间一个平衡的结果。这样的方案使得无车人可以:

  • 与激进的驾驶员交互过程中变得保守;

  • 与保守的驾驶员交互过程中变得高效;

下面,本文将以三个问题的方式展开解释“礼貌型规划”。

1.     如何定义“不便利”?

2.     “礼貌型”规划有效果吗?

3.     “礼貌型”规划真的符合真实的人类驾驶员的行为吗?

1. 如何定义“不便利”?

为了定义“不便利”,我们引入了非理性经济人的Prospect Theory模型。该模型指出,人类在做决策的时候并不是计算所有效能(utility)的绝对值,而是计算其相对于参考点(reference point )的相对值(framing effect):收益(gain)-损失(loss)。并且,损失的权重会比收益的权重更大。基于此,我们引入与无人车交互的人类驾驶员的两种效能:

  • 参考效能:考虑以下三种情况

o   I -- 如果没有无人车在场,人类驾驶员的最优效能

o   II -- 如果无人车帮助人类驾驶员,人类驾驶员的最优效能

o   III --如果无人车维持现有行为,人类驾驶员的最优效能

  • 实际效能:无人车当前行为下,人类驾驶员的最优效能

因此,无车人当前的行为对人类驾驶员造成的“不便利”可以定义为其效能的降低:

不便利= max { 参考效能- 实际效能,0 }

无人车的“礼貌型规划”的优化机制也因此变为:

C(礼貌) = C(自私)*W(自私) + 不便利*W(礼貌)

其中:C 代表无车人的成本优化函数。C(礼貌) 和 C(自私) 分别是“礼貌型”规划和“自私型”规划的成本函数,W(礼貌) 和 W(自私) 是调节“自私”和“礼貌”程度的系数。无人车将产生(局部)最优的行为使得 C(礼貌) 达到(局部)最小。

2. “礼貌型”规划有效果吗?

以下所有图中,灰色代表“自私型”无人车,橘色代表“礼貌型”无人车,蓝色代表人类驾驶员。

a.    场景一:并道

图1

图2

可见,随着无人车越来越礼貌( W(礼貌) 从左向右变大),它并道时留给人类驾驶员的空间越来越大,甚至主动从后面完成并道(图2b)。

b.    场景二:左转

图3

对比“自私型”无人车(图3a),“礼貌型”无人车在左转时主动礼让直行车。

c.    场景三:T型路口右转

图4

在图4中,我们评价不同的参考效能对“礼貌型无人车行为的影响。(a) 使用参考效能III,无人车尽快穿过路口使得人类驾驶员可以完成右转 (b) 使用参考效能I/II,无人车减速让人类驾驶员先行通过。

3. “礼貌型”规划真的符合真实的人类驾驶员的行为吗?

为了证明“礼貌型“规划真的符合人类驾驶员的行为,我们引入Inverse Reinforcement Learning (IRL),并基于NGSIM的数据集设计了两组实验:

a.     使用IRL学习“自私型“规划的成本函数参数

b.     使用IRL学习“礼貌型“规划的成本函数参数

结果如下:

结果分析:

从学习结果看,我们发现“礼貌型”规划能够更好的解释数据集中人类驾驶员的行为。这说明,人类驾驶员也在遵守“礼貌型”规划的基本策略。

参考文献:Liting Sun, Wei Zhan, Masayoshi Tomizuka, Anca D. Dragan, “Courteous Autonomous Cars”, to appear IROS 2018, https://arxiv.org/abs/1808.02633.

ControlPlusAI
ControlPlusAI

分享机器人控制和AI领域里的一些知识和感想,偏学术。由来自UC Berkeley, Stanford, CMU的研究者们原创撰稿。

理论无人车
2
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~