MIT 新发布大型数据集 ADE20K:用于场景感知、语义理解等多种任务

近日,MIT 通过官网发布了一款名为 ADE20K 的数据集,可用于场景感知、解析、分割、多物体识别和语义理解。整个数据集(包含所有的图像和分割在内)的大小为 3.8Gb。MIT 从下载、描述、浏览、评估等方面对该数据做了扼要介绍。机器之心对原文进行了编译,数据集下载地址及原文链接请见文中。


项目地址:http://groups.csail.mit.edu/vision/datasets/ADE20K/


数据集下载页面

描述

图像和注解

每个文件夹包含通过场景范畴进行分类的图像。对于每一张图像,目标和部件分割被存储为两种不同的 png 文件。所有的图像和部件示例都被分别注释。

浏览

已注释图像涵盖了 SUN 和 Places 数据集中的场景范畴。下面是一些展示图像、目标分割和部件分割的示例。你也可以通过 ADE20K 浏览器浏览其他图像。

下面的可视化给出了目标、部件和注释示例的数量的列表。树状表只展示了带有超过 250 个注解示例的目标,以及带有超过 10 个注解示例的部件。

一些类别可以既是目标,也是部件。例如,一个「门」可以是一个目标(在一张室内图片中)或者一个部件(当它是车的一个门时)。一些目标经常是部件(比如一条腿、一只手),尽管在某些情况下它们看起来与整体是相互独立的(比如车库中的汽车轮子);而有些目标则永远不是部件(比如一个人,一辆卡车等等)。依据于部件所属的目标,相同的名称类别(比如门)可对应于若干个视觉范畴。例如,一个汽车的门从视觉上看是不同于一个橱柜的门的。然而它们也共享一些相似的可供性(affordance)。proportionClassIsPart(c) 的值可以用来决定一个分类是否主要作为一个目标或一个部件。当目标不是另一个目标的一个部件时,其分割掩码将出现在 * _seg.png 内。如果分类是一个部件,则分割掩码将出现在 * _seg_parts.png 内。正确检测目标需要区分目标是否表现为独立目标,或者是否是另一目标的一个部件。

评估

使用验证集评估你的算法。你可以使用评估工具包进行场景解析挑战。

数据集偏差

在训练集中:

  • 图像的中值长宽比为 4/3。
  • 图像中值大小为 307200 像素。平均图像大小为 1.3M 像素。
  • 目标分割的模式如下所示,包含四个目标(从上到下):天空、墙、建筑和地板。

  • 部件分割的模式包含两个分类:窗户和门。

在测试集中:

  • 当简单地使用模式来分割图像时,它平均获得验证集中的每个图像的像素的 20.3%。
  • 在验证集中,IoU(The Intersection over Union)对于表现在分割模式中的四个分类是:


注释噪音分析

为了分析注释的连贯性,我们采用了一个包含从验证集中随机选取的 64 张图像的子集,并要求对其再次进行注释。这些图像中的 20 个通过两个外部注释器进行注释。我们会期望两个注释之间存在一些差别,甚至是在任务被同一个人完成的情况下。通常 82% 的像素获得了相同的标注。下图展示了由同一个注释器完成的一张图片和两个分割。

入门MIT数据集场景识别工程计算机视觉
返回顶部