数据至上的人工智能时代,最好的公开数据集有哪些?

现如今构建人工智能或机器学习系统比以往的时候更加容易。普遍存在的尖端开源工具如 TensorFlow、Torch 和 Spark,再加上通过 AWS 的大规模计算力、Google Cloud 或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型。


虽然不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,许多许多标注或未标注的数据。研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤。


然而,涉及到机器学习或人工智能的大多数产品强烈依赖于那些通常没有开放的私有数据集,而本文将指出解决这种困境的办法。


事实上,我们很难用一篇文章来说明哪些开放数据集是有用的,因为那些有用的开放数据集必须是可概念证明的,而什么数据集对产品或确认特征是有用的,在你收集你自己所有数据之前是不知道的。


重要的是,如果数据集有良好的表现并不能保证其训练的机器学习系统在实际产品场景中表现良好。许多人在构建人工智能系统时常常忘了构建一个新人工智能解决方案或产品最困难的部分不是人工智能本身或算法,通常最困难的地方是数据收集和标注。标准数据集可以作为验证或构建更优良解决办法的良好起点。


在这个星期,我和一些机器学习专家们讨论的都是有关标准数据集的问题。为了让你能更轻松地构建人工智能系统,我们搜集了一些开源数据集,这些开源数据集是我们认为在人工智能的世界里你所需要了解的。


计算机视觉


  • MNIST: 最通用的健全检查。25x25 的数据集,中心化,B&W 手写数字。这是个容易的任务——但是在 MNIST 有效,不等同于其本身是有效的。

    地址:http://pjreddie.com/projects/mnist-in-csv/


  • CIFAR 10 & CIFAR 100: 32x32 彩色图像。虽不再常用,但还是用了一次,可以是一项有趣的健全检查。

    地址:https://www.cs.toronto.edu/~kriz/cifar.html


  • ImageNet: 新算法实际上的图像数据集。很多图片 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个范畴很接近。

    地址:http://image-net.org/


  • LSUN: 场景理解具有很多辅助任务(房间布置评估、显著性预测等)和一个相关竞争。

    地址:http://lsun.cs.princeton.edu/2016/


  • PASCAL VOC: 通用图像分割/分类:对于构建真实世界的图像注释毫无用处,对于基线则意义重大。

    地址:http://host.robots.ox.ac.uk/pascal/VOC/


  • SVHN: 来自谷歌街景视图(Google Street View)的房屋数量。把这想象成荒野之中的周期性 MNIST。

    地址:http://ufldl.stanford.edu/housenumbers/


  • MS COCO: 带有一个相关性竞争的通用图像理解/字幕。

    地址:http://mscoco.org/


  • Visual Genome: 非常详细的视觉知识库,并带有 100K 图像的深字幕。

    地址:http://visualgenome.org/


  • Labeled Faces in the Wild:通过名称标识符,已经为被裁剪的面部区域(用 Viola-Jones)打了标签。现有人类的子集在数据集中有两个图像。对于这里做面部匹配系统训练的人来说,这很正常。

    地址:http://vis-www.cs.umass.edu/lfw/


自然语言



语音


大多数语音识别数据集是有所有权的,这些数据为收集它们的公司带来了大量的价值,但在这一领域里,许多可用的数据集都是比较旧的。


  • 2000 HUB5 English: 仅仅只包含英语的语音数据,最近百度发表的论文《深度语音:扩展端对端语音识别(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了该语音数据集。

    地址:https://catalog.ldc.upenn.edu/LDC2002T43


  • LibriSpeech:包括文本和语音的有声读物数据集。它是近 500 小时由多人朗读清晰的各类有声读物数据集,且由包含文本和语音的书籍章节组织起结构。

    地址:http://www.openslr.org/12/


  • VoxForge:带口音的语音清洁数据集,特别是对于如期望对不同口音或腔调的语音有鲁棒性需求的系统很有用。

    地址:http://www.voxforge.org/


  • TIMIT:只包含英语的语音识别数据集。

    地址:https://catalog.ldc.upenn.edu/LDC93S1


  • CHIME:包含噪声的语音识别数据集。该数据集包含真实、模拟和清洁的语音记录。实际上是记录四个说话者在四个噪声源的情况下近 9000 份记录,模拟数据是在结合话语行为和清洁无噪语音记录的多环境下生成的。

  • 地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html


  • TED-LIUM:TED 演讲的语音转录数据集。1495 份 TED 演讲的语音记录,并且这些语音记录有对应的全文本。

    地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus


推荐和排序系统


  • Netflix Challenge:第一个主要 Kaggle 风格的数据库。因为存在隐私问题,只能非正式地获得授权。

    地址:http://www.netflixprize.com/


  • MovieLens:各种电影的评论数据库,通常用于基线协同过滤(collaborative filtering baselines)。

    地址:https://grouplens.org/datasets/movielens/


  • Million Song Dataset:在 Kaggle 上大量、富元数据(metadata-rich)、开源的数据集,有利于人们试验混合推荐系统(hybrid recommendation systems)。

    地址:https://www.kaggle.com/c/msdchallenge


  • Last.fm:音乐推荐数据集,该数据集能有权访问底层社交网络和其他元数据,而这样的数据集正对混合系统有巨大的作用。

    地址:http://grouplens.org/datasets/hetrec-2011/


网络和图表



地理测绘数据库



人们常常认为解决一个数据集上的问题就相当于对产品进行了一次完整的审视。因为我们可以使用这些数据集进行验证或证明一个概念,但是也不要忘了测试模型或原型是如何获取新的和更实际的数据来提高运算效果,获得优良产品的。数据驱动的成功公司通常从他们收集新数据、私有数据的能力中获得力量,从而以一种具有竞争力的方式提高他们的表现。


最后的话


好数据集还有很多,这份列表当然不可能完全覆盖,如果你知道还有很好的数据集值得推荐,请通过评论与我们分享。

入门
1
返回顶部