基于语义意图的车辆行为预测

本文介绍作者在IV2018上的获奖论文“Probabilistic Prediction of Vehicle Semantic Intention and Motion”。

1. 什么是预测及预测的重要性

“预测”这个词对我们来说并不陌生,而且我们经常会做各种各样的预测。比如我们会预测明天或是未来会发生什么;预测哪支球队能夺得世界杯冠军;当然在开车的时候我们也会下意识地预测其它车辆的行为,避免可能发生的危险。但是人类所能捕获到的外部信息是有限的,当遇到一些不那么遵纪守法的司机,或者某辆车在我们的盲区时,预测他们的行为便变得不那么容易了。同时,司机的注意力也很难做到长时间的集中,有时甚至会被一些外部因素所分散(比如手机等)。而交通事故往往就发生在这些时刻。

对于未来的无人车,能准确地预测出路面车辆将会发生的行为是尤为重要的。目前的许多研究仅通过考虑特定场景来确定驾驶意图的数量。但是不在同场景下,车辆会有不同可能的驾驶意图。比如在高速场景下,可行的驾驶意图通常分为三种:直行,左变道,和右变道;而在十字路口,可行的驾驶意图除了以上列举的三种,还包括左转弯,右转弯,和直行通过路口。所以,我们需要设计一种方法,使其能够适用于不同场景的意图预测。

自动驾驶汽车配有各类传感器,比如微波雷达,激光雷达等。这使得它们具备远超人类的检测感知能力,并且可以做到不间断,全方位地检测周围环境。所以,我们希望利用这一点,让自动驾驶汽车拥有比人类更好的预测的能力,使其拥有安全、舒适、且具有合作性的驾驶能力。

2. 我们想预测什么?

当然,想要让自动驾驶汽车预测路面汽车的驾驶行为,我们首要明白人类开车时候会做出什么样的行为。事实上,我们开车时通常在做的一件事就是在不停寻找合适的“插入区域”。可以通过下面这个动图来更好地理解:

在这个图中,假设我们在驾驶着这辆红色轿车,想要到达星号的位置。随着车辆的位置变化,我们的目标区域(红色阴影)也在发生着变化。在这个过程中,我们做了三件事/完成三个小目标:左变道,跟车,左转弯。我们经历着不同的场景,不同的道路结构和不同的驾驶行为,但是有一件事情是不变的:我们一直在寻找一个可以插入的空隙。以上,我们总结出以下两点:

  • 人类在驾驶的时候为了完成一个个小的目标,会不断寻找并插入到不同的行驶区域中;

  • 预测人类驾驶行为可被简化为预测车辆会插入到哪个区域。

当然,除了预测可能插入的区域,我们希望自动驾驶汽车能够做到更多:

  1. 预测多久能够完成这个过程(时间信息);

  2. 预测具体会插入到这个区域的哪个位置(位置信息)。

所以我们把需要解决的预测问题用语义的方式描述成:“预测车辆最有可能插入到哪个区域里?何时?何处?

3. 用什么方法实现预测?

我们提出一个Semantic based Intention and Motion Prediction(SIMP) 的方法。翻译过来就是基于语义意图和运动的预测方法。这是一个基于混合密度网络(Mixture Density Network深度神经网络(Deep Neural Network的方法。每一个“插入区域”都被指定了一个二维的高斯混合模型Gaussian Mixture Model),具体公式如下:

下角标a代表其中一个插入区域a;x是输入,包括当前从环境中提取的一些状态特征,y是输出,包括以上提到的时间和位置信息。整体框架的输出包括每一个二维高斯混合模型需要的参数(P),以及每一个可以插入的区域的权重(w)。

SIMP框架图如下:

我们把损失函数定义为:

如此定义的损失函数不仅可以使真正插入的区域拥有最大的权重,同时也使得该区域内的正确的时间和位置信息拥有最高的预测概率。

4. 真实场景预测

简单介绍完了方法,我们来看看它在真实的道路场景中的效果如何吧!我们选用了NGSIM的数据集,这是一个开源的数据集,里面包括真实高速路段中的车辆信息。我们选取了其中17179个frame作为训练和测试的数据。

在高速场景中我们定义了如下信息以便于特征提取和结果评估。黄色的车是想要预测的车辆,几辆蓝色的车是在这三条道路上距离预测车辆最近的三辆车。青色的圆圈便是所有可能插入的区域,在这里我们称其为动态的插入区域因为这些区域的位置和大小一直在随着时间而变化,并不固定。通过以上的定义方法,当预测车辆旁边的某条车道不存在或者车道上没有车时,一样可以使用我们提出的方法。

5. 实验结果及分析

我们选取了以下三种不同的测试情况来看看预测的结果:

场景1:参考车辆的突然改变

场景2:典型的车道线变换

场景3:改变主意

我们对于第二种场景提取了几个典型的frame,并画出了预测的时间信息曲线如下。可以看到,我们的时间预测结果与真实值的差距在变道前3秒都在0.3s以内。

 我们分别把我们的方法与经典的分类方法(支持向量机SVM和回归方法(分位数回归树QRF分别进行了对比,结果如下:

这里,“True Positive”代表正确预测出向左或是向右变道,“False Positive”代表错误地预测了变道的方向。通过ROC对比图,可看出我们的方法的准确率超过了传统的SVM方法。除此之外,我们还对比了其他的数值,F1-Score表示分类能力的好坏,Avg. Predict Time表示可以在变道前多久能够做出准确预测(数值越大越好)

以上两张图分别从时间和位置两方面将我们的方法和QRF方法的预测结果进行了比较。可以看出,对于两种车辆运动的预测,使用我们方法得出的RMSE误差都小于使用QRF方法得到的结果。由于使用我们方法得到的误差以及一个和两个标准差之间的差距在不断减小,说明我们预测的高斯分布的最高峰也越来越接近真正的值。

具体方法细节可参见论文:

[1] Yeping Hu, Wei Zhan, and Masayoshi Tomizuka, “Probabilistic prediction of vehicle semantic intention and motion,” in 2018 IEEE Intelligent Vehicles Symposium (IV), Jun. 2017.

ControlPlusAI
ControlPlusAI

分享机器人控制和AI领域里的一些知识和感想,偏学术。由来自UC Berkeley, Stanford, CMU的研究者们原创撰稿。

理论SVM高斯混合模型深度神经网络自动驾驶语义理解
32
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

高斯混合模型技术

高斯混合模型(Gaussian Mixture Model,GMM)是单一高斯概率密度函数的延伸,就是用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布,是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
方便给个联系方式吗?有些问题想要请教一下
你好,要是有什么问题可以邮件联系我: yeping_hu@berkeley.edu