谷歌开源BoundingBoxes,迄今为止最大的带注释图像数据集

昨日,谷歌宣布开放了一个基于 Youtube 视频的图像数据集 Youtube-BoundingBoxes Dataset,为所有研究者进行模型训练和研究提供了新资源。谷歌宣称这个数据集的检测数量(detection count)为ImageNet的五倍。

目前深度学习面临的最大挑战之一是让计算机能够理解一个具体场景。举个例子,虽然人类知道在一堵墙后消失并很快再次出现的小球很可能是同一个物体,但这对算法来说一点也不显而易见。理解这样的场景不仅需要一组对视频里每一帧所包含的物体的全局图片,而且还需要对这些物体在每一帧内的位置以及位置进行记录。YouTube-8M 是我们在去年刚刚发布的数据集,这个数据集是由自动标记的 YouTube 视频组成。尽管这个数据集的推出促进了这个领域进一步的研究进展,但它只是解决这个难题的一块拼图。

今天,为了促进视频理解研究领域的研究进展,我们推出了 YouTube-BoundingBoxes 数据集,这个数据集包含有在 23 个物体类别上的 1050 万人工标注的帧,其中包含 500 万边界框(bounding boxes),它们密集标记了 38 万条 15-20 秒钟长度的 YouTube 视频片段(从 24 万个视频中截取),其图像质量类似于手机摄像。这个数据集的标注和边界框精度超过了 95%。迄今为止,它是对时间连续帧内的物体进行跟踪,包含边界框的最大人工注释视频数据集。这个数据集的体量足以用于训练大规模模型,并且可为真实场景的视频捕捉进行训练。最重要的是,数据集中人工标记的注释包含了物体在真实世界中被遮挡、产生运动模糊和自然光照变化等情形。

20170207094121.jpg

左侧条形图:现有图片(红)与视频(蓝)数据集的检测数量对比。其中 YT-BB 的数字在最下面。右侧表:计数、分类注释和带有边界框的视频

该数据集的关键特点是:它为所有视频加入了边界框及注释,这些边界框可以用于训练利用时态信息进行识别、定位和追踪对象的模型。在视频中,单个带注释的对象可能会被完全遮挡,并在随后的帧中再次出现。所以,针对某个对象的注释可能不会出现在所有帧上,但是如果它被正确地定位和追踪到,则可以在整个视频的尺度上被模型理解和识别。

我们希望这一数据集最终能帮助到计算机视觉和机器学习社区,最终激发出解决真实世界问题的新的分析和理解工具。

image00.png

四个视频片段,以每秒一帧的频率采样。第一个例子的最后一帧显示了由于图像模糊和遮挡(上图火车,蓝色箭头)对识别有界对象在视觉上的挑战性。当然,这些相对清晰的,时间上紧连的帧,仍然可以让计算机在其中识别物体。注意:在红色框中的事物可能有一部分无法被分辨出来:中上图橙色箭头所指的熊,它的头不可见。中下图蓝色箭头所指的两只狗,身体的一部分被互相遮挡。下图的飞机事例中,物体的一部分在镜头之外。

我们希望这个数据集可以帮助计算机视觉和机器学习界的研究者,找到新的分析和理解现实世界视觉问题的方法。

相关论文:YouTube-BoundingBoxes: A Large High-Precision Human-Annotated Data Set for Object Detection in Video

20170207094000.jpg

摘要:

我们引入了一个视频 URL 的大型数据集,它被密集采样对象边界框(densely-sampled object bounding box)进行了标注,我们称它为 YouTube-BoundingBoxes(YT-BB)。该数据集由大约 38 万个约 19 秒长的视频段组成,在没有进行编辑或后处理情况下自动被选为在自然设置中抽取目标特征,这些短视频的录制质量相当于手机视频拍摄的质量。

目标表征了 COCO 标注数据集的一个子集。所有视频段被都用高精度分类标签和边界框以每秒一帧图片的频率进行了人工标注。我们使用了精确的人工注释级联确保每个类和紧密边界框(tight bounding boxes)的标注精度高于 95%。

最后,我们使用它训练和评估了几种著名的深度学习网络架构,并报告了每帧分类和定位的的基准数据,从而为以后的研究提供一个可比较的基准点。我们还证明了视频时间的邻近性(the temporal contiguity of video)可以如何提升这种推论。目前,这个数据集已被公开,我们希望这个巨大的数据库可以推动视频对象检测和跟踪的新进步。

相关链接:

Youtube8M:

https://research.google.com/youtube8m/ (https://research.google.com/youtube8m/%E3%80%82)

Youtube BoundingBoxes:

https://research.google.com/youtube-bb/

入门谷歌数据集视频工程计算机视觉
返回顶部