蒋宝尚编译

机器学习高质量数据集大合辑

机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。

那么用于机器学习的开放数据集有哪些呢?文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。

首先,在搜索数据集时,在卡内基·梅隆大学有以下说法:

  • 数据集不应混乱,因为你不希望花费大量时间清理数据。

  • 数据集不应该有太多行或列,因此很容易使用。

  • 数据越干净越好 —— 清洗大型数据集相当耗时。

  • 数据可以解答一些有趣的问题。

数据集查找器

Kaggle:Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。

在这个平台中可以找到各种数据,从拉面的评分、篮球数据,到西雅图的宠物牌照应有尽有。

https://www.kaggle.com/

UCI机器学习库(UCI Machine Learning Repository):这是网络上最早的数据集来源之一,是寻找各种有趣数据集的第一选择。虽然用户提供的数据集的清洁度不太一样,但绝大多数都是干净的。我们可以从 UCI 机器学习库直接下载数据,无需注册。

http://mlr.cs.umass.edu/ml/

VisualData:在这里计算机视觉数据集按类别分组,并且支持搜索查询

https://www.visualdata.io/

公共政府数据集

Data.gov:在这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但要注意的是,很多数据还有待进一步研究。

https://www.data.gov/

食品环境地图集(Food Environment Atlas):当地的食物选择如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

学校系统财务状况(School system finances):这里有美国学校系统财务状况的调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

慢性病数据(Chronic disease data):美国各地慢性病指标的数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

美国国家教育统计中心(The US National Center for Education Statistics):来自美国和世界各地的教育机构和教育人口统计数据。

https://nces.ed.gov/

英国数据服务:英国最大的社会、经济和人口数据收集机构。

https://www.ukdataservice.ac.uk/

数据美国(Data USA):全面的、可视化的美国公共数据。

http://datausa.io/

金融和经济

Quandl: 里面有很多经济和金融数据,你可以使用这些数据建立预测经济指标或股价的模型。

https://www.quandl.com/

世界银行开放数据(World Bank Open Data):涵盖世界各地人口统计、大量经济和发展指标的数据集。

https://data.worldbank.org/

货币基金组织的数据(IMF Data):国际货币基金组织公布关于国际金融、债务率、外汇储备、商品价格和投资的数据。

https://www.imf.org/en/Data

英国金融时报金融时报市场数据(Financial Times Market Data:):里面有来自世界各地的最新金融市场信息,包括股票价格指数、商品和外汇。

https://markets.ft.com/data/

谷歌趋势(Google Trends):观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0

美国经济协会(AEA):这这里你可以找到美国宏观经济的相关数据。

https://www.aeaweb.org/resources/data/us-macro-regional

机器学习数据集

Labelme:数据集中包含大量有标注的图像数据。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet    是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。

http://image-net.org/

LSUN:场景理解与许多辅助任务(房间布局估计,显着性预测等)

http://lsun.cs.princeton.edu/2016/

MS COCO:通用图像的理解和文字描述。

http://mscoco.org/

COIL 100:在 360 度旋转中以各个角度成像的 100 个不同的物体。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

视觉基因组:非常详细的视觉知识库,配以0 万张带有文字描述的图像。

http://visualgenome.org/

谷歌的Open Images:“知识共享”(Creative Commons)下的900万个图像网址集合,已标注超过6,000个类别的标签。

https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

Labelled Faces in the Wild:13,000个人脸标记图像,用于开发涉及面部识别的应用程序。

http://vis-www.cs.umass.edu/lfw/

Stanford Dogs Dataset:包含20580张图片和120个不同的狗品种类别。

http://vision.stanford.edu/aditya86/ImageNetDogs/

室内场景识别(Indoor Scene Recognition):这是一个非常细化的数据集,由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳,因而这个数据集非常有用。内有 67 个室内类别,共 15,620 张图像。

http://web.mit.edu/torralba/www/indoor.html

情感分析

多域情感分析数据集(Multidomain sentiment analysis dataset):一个比较有历史的数据集,里面还有一些来自亚马逊的产品评论。

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB: 影评,也是比较有历史的二元情绪分类数据集、数据规模相对较小,里面有 25,000 条电影评论。

http://ai.stanford.edu/~amaas/data/sentiment/

斯坦福情感树银行(Stanford Sentiment Treebank):带有情感注释的标准情绪数据集。

http://nlp.stanford.edu/sentiment/code.html

Sentiment140:一个流行的数据集,它使用16万条推文,并把表情等等符号剔除了。

http://help.sentiment140.com/for-students/

Twitter 美国航空公司情绪数据集 (Twitter US Airline Sentiment):自 2015 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

安然数据集:里面有安然集团高级管理层的电子邮件数据。

https://www.cs.cmu.edu/~./enron/

亚马逊评论:里面有3500万条来自亚马逊的评论,时间长度为18年。数据包括产品和用户信息、评级等。

https://snap.stanford.edu/data/web-Amazon.html

Google Books Ngram:来自Google书籍的词汇集合。

https://aws.amazon.com/datasets/google-books-ngrams/

博客语料库从blogger.com收集的681,288篇博客文章。每个博客至少包含200个常用的英语单词。

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

维基百科链接数据(Wikipedia Links data):维基百科全文。该数据集包含来自400多万篇文章,近19亿字。你可以对字、短语或段落本身的一部分进行搜索。

https://code.google.com/p/wiki-links/downloads/list

Gutenberg电子图书列表:Project Gutenberg的附加注释的电子书列表。

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

加拿大议会的文本块(Hansards text chunks of Canadian Parliament):来自第36届加拿大议会记录的130万对文本。

http://www.isi.edu/natural-language/download/hansard/

危险边缘 (Jeopardy):来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档。

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

英文SMS垃圾邮件收集(SMS Spam Collection in English):包含5,574条英文垃圾邮件的数据集。

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

Yelp评论(Yelp Reviews):Yelp发布的一个开放数据集,包含超过500万次评论。

https://www.yelp.com/dataset

UCI的垃圾邮件库(UCI’s Spambase):一个大型垃圾邮件数据集,用于垃圾邮件过滤。

https://archive.ics.uci.edu/ml/datasets/Spambase

自动驾驶

Berkeley DeepDrive BDD100k:这是目前最大的自动驾驶 数据集。里面有超过 1,100 多个小时驾驶体验的视频,包含10 万个在一天中不同时段以及在不同天气条件下的数据。

http://bdd-data.berkeley.edu/

百度 Apolloscapes:大型数据集,定义了26种不同的语义项,如汽车,自行车,行人,建筑物,路灯等。

http://apolloscape.auto/

Comma.ai:超过7个小时的高速公路驾驶视频。里面的数据包括汽车的速度、加速度、转向角和GPS坐标。

https://archive.org/details/comma-dataset

城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。

https://www.cityscapes-dataset.com/

CSSAD数据集:包含自动车辆的感知和导航等数据,但着重于发达国家的道路。

http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

麻省理工学院AGE实验室(MIT AGE Lab:):在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA:智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。

http://cvrr.ucsd.edu/LISA/datasets.html

博世小型交通灯数据集(Bosch Small Traffic Light Dataset):用于深入学习的小交通灯数据集。

https://hci.iwr.uni-heidelberg.de/node/6132

Lara交通灯识别(LaRa Traffic Light Recognition):巴黎交通灯的数据集。

http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

WPI 数据集:交通灯、行人和车道检测的数据集。

http://computing.wpi.edu/dataset.html

相关报道:

https://medium.com/datadriveninvestor/the-50-best-public-datasets-for-machine-learning-d80e9f030279

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

工程机器学习数据集公共服务智慧金融情感分析自然语言处理自动驾驶
9
相关数据
自动驾驶汽车技术
Autonomous cars

自动驾驶汽车,又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人,是自动化载具的一种,具有传统汽车的运输能力。作为自动化载具,自动驾驶汽车不需要人为操作即能感测其环境及导航。

语料库技术
Corpora

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

图网技术
ImageNet

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

知识库技术
Knowledge base

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

查询技术
Query

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

分类数据技术
categorical data

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。