参与张倩 路雪

伯克利发布BDD100K:目前最大规模开放驾驶视频数据集

近日,UC Berkeley 发布了迄今为止规模最大、最多样化的开放驾驶视频数据集——BDD100K。该数据集共包含 10 万个视频,BAIR 研究者在视频上采样关键帧,并为这些关键帧提供注释。此外,BAIR 还将在 CVPR 2018 自动驾驶 Workshop 上基于其数据举办三项挑战赛。

大规模、多样化、驾驶、视频:四合一

自动驾驶将改变每个社区的生活。然而,最近的事件表明,在自动驾驶系统部署到现实世界中后,人造感知系统如何避免错误(甚至看似明显的错误)还不得而知。BAIR 的计算机视觉研究者有兴趣探索自动驾驶感知算法的前沿,以使其更加安全。为了设计和测试潜在的算法,研究者想利用真实驾驶平台收集数据中的所有信息。这种数据有四个主要特点:大规模、多样化、在街上采集、具有时间信息。数据多样性对于测试感知算法的鲁棒性尤为重要。但是,当前的开放数据集只能覆盖上述属性的一部分。因此,在 Nexar 的帮助下,BAIR 将发布 BDD100K 数据库,这是迄今为止用于计算机视觉研究的最大、最多样化的开放驾驶视频数据集。该项目由伯克利 DeepDrive 产业联盟组织和赞助,该联盟研究计算机视觉机器学习在汽车应用上的最新技术。

随机视频子集的位置。

顾名思义,该数据集共包含 10 万个视频。每个视频大约 40 秒长、720 p、30 fps,还附有手机记录的 GPS/IMU 信息,以显示大概的驾驶轨迹。这些视频是从美国各地收集的,如上图所示。数据库涵盖了不同的天气条件,包括晴天、阴天和雨天,以及白天和晚上的不同时间。下表总结了与以前数据集的对比结果,表明 BAIR 的数据集更大、更多样化。

与其他街道场景数据集的对比结果。很难在数据集之间公平地比较 # images,但在此将其列出作为粗略参考。

正如 2017 年的 CVPR 论文(https://arxiv.org/abs/1612.01079)中提到的一样,这些视频和它们的轨迹对于模仿学习驾驶规则是有用的。为了促进研究者在 BDD100K 这一大规模数据集上进行计算机视觉研究,BAIR 还提供了视频关键帧的基本注释,详见下一节。

数据和注释下载地址:http://bdd-data.berkeley.edu

注释

BAIR 研究者在每个视频的第 10 秒采样关键帧,并为这些关键帧提供注释。它们被标记为几个级别:图像标记、道路对象边界框、可驾驶区域、车道标记线和全帧实例分割。这些注释有助于理解不同场景中数据和对象统计的多样性。BAIR 将在另一篇博文中讨论标注过程。有关注释的更多信息,请参见 BAIR 的 arXiv 报告:https://arxiv.org/abs/1805.04687。

注释概览

道路目标检测

为了解对象的分布及其位置,BAIR 研究者为所有 10 万个关键帧中常出现在道路上的对象标记了对象边界框。下面的条形图显示对象计数。在注释中还有其他处理统计数据的方法。例如,我们可以比较不同天气条件下或不同场景中的对象数量。此图还显示了数据集中出现的各种对象集,以及数据集的规模——超过 100 万辆汽车。这里应该提醒读者,这些是具有不同外观和语境的不同对象。

不同类型对象的数据。

该数据集也适用于研究某些特定的领域。例如,如果你对检测和避开街道上的行人感兴趣,可以考虑研究该数据集,因为它包含的行人实例比以前的专门数据集还要多,如下表所示:

与其他行人数据集的训练集规模对比结果。

车道线

车道线对于人类司机而言是重要的道路指示。它们也是驾驶方向的重要线索,以及在 GPS 或地图没有准确覆盖全球时,帮助自动驾驶系统准确定位。BAIR 研究者根据车道线对车辆的指示作用将车道线分成两种类型。垂直车道线(下图红色标记)表示车辆驾驶方向,平行车道线(下图蓝色标记)表示车辆在此车道要停下。BAIR 研究者还为车道线提供属性,如实线 vs. 虚线、双线 vs. 单线。

如果你准备好试用自己的车道线预测算法,那么开始吧。下面是现有车道线数据集的对比结果:

可驾驶区域

我们能否在某条路上驾驶取决于车道线、交通设备,以及与道路上其他对象的复杂互动。总之,理解哪块区域适合驾驶非常重要。为了研究该问题,BAIR 提供了可驾驶区域的分割注释,如下图所示。BAIR 根据 ego vehicle 将可驾驶区域分割成两个类别:直接可驾驶和替代可驾驶。直接可驾驶(标记为红色)即 ego vehicle 具备道路优先权,可以在该区域驾驶。替代可驾驶(标记为蓝色)即 ego vehicle 可在该区域驾驶,但是必须小心,因为这段路的优先权属于其他车辆。

全帧分割

研究者已经证明在 Cityscapes 数据集上,全帧实例分割可以大大促进密集预测和目标检测方面的研究,而这二者是计算机视觉应用中的重要部分。由于 BAIR 的视频是不同的领域,因此 BAIR 也提供实例分割注释,以对比不同数据集上的域变换(domain shift)。获取全像素级别的分割结果成本高,且耗费大量劳动。幸运的是,使用 BAIR 的标注工具后,标注成本可以减少 50%。最后,BAIR 给包含一万张图像的数据子集进行了全帧实例分割。标注集与 Cityscapes 数据集中的训练注释是兼容的,这样便于研究两个数据集之间的域变换。

自动驾驶挑战赛

BAIR 将在 CVPR 2018 自动驾驶 Workshop 上基于其数据举办三项挑战赛:道路目标检测、可驾驶区域预测和语义分割域适应。检测任务要求算法找出 BAIR 测试图像上的所有目标对象。可驾驶区域预测要求分割出汽车可以驾驶的区域。域适应中的测试数据是从中国收集的,因此系统必须使在美国数据中训练的模型在中国北京的拥挤街道上仍然能够运行。查看工具包(https://github.com/ucbdrive/bdd-data),赶快参与吧!

未来工作展望

自动驾驶感知系统绝不仅仅关于单目视频。它还可能包括全景视频和立体视频,以及其他类型的感知器,如 LiDAR 和雷达。BAIR 希望能在不久的未来提供和研究多模态感知器数据。

原文链接:http://bair.berkeley.edu/blog/2018/05/30/bdd/

工程
1
相关数据
计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

模仿学习技术
Imitation learning

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知器技术
perceptron

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

推荐文章
BCG报告:自动驾驶时代来临前的万字忠告
PSI内容合伙人
波士顿咨询报告:自动驾驶汽车、自动驾驶出租车以及城市交通革命
机器之心1
CVPR 2017完全指北:深度学习与计算机视觉融合的一年,未来又会是什么?
机器之心3
返回顶部