图网

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

简介

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。ImageNet 由美国斯坦福的计算机科学家建立,旨在模拟人类的识别系统从图片识别物体。ImageNet 通过类似于 WordNet 层次结构组织图像数据。 WordNet中的每个有意义的概念,可能由多个单词或单词短语描述,被称为“同义词集合”或“synset”。 WordNet中有超过10万个同义词,其中大部分是名词(80,000+)。 在ImageNet中,我们平均用1000个图像来说明每个概念。ImageNet 针对每个概念的图像都是由人工标注并且保证质量的。

【来源:ImageNet 官网 http://www.image-net.org, Wiki 词条 https://en.wikipedia.org/wiki/ImageNet

We introduce here a new database called “ImageNet”, a large- scale ontology of images built upon the backbone of the WordNet structure. ImageNet aims to populate the majority of the 80,000 synsets of WordNet with an average of 500- 1000 clean and full resolution images. This will result in tens of millions of annotated images organized by the se- mantic hierarchy of WordNet. This paper offers a detailed analysis of ImageNet in its current state: 12 subtrees with 5247 synsets and 3.2 million images in total

ImageNet 是一个基于 WordNet 主干结构的大规模图片库。WordNet 词库包含了 80000多个同义词集合,ImageNet 旨在用平均500到1000的清晰分辨率的图片来说明 WordNet 中大多数同义词集合。我们将获得一个基于 WordNet 语义层次进行组织的数以千万计的图片,而且这些图片都是经过标注的。

【论文:Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on (pp. 248-255). IEEE.】

图1: WordNet structure 示例

发展历史

ImageNet 始于 2009 年,当时李飞飞、Jia Deng 等研究员在 CVPR 2009 上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,之后就是 7 届 ImageNet 挑战赛的开始(2010 年开始)。截至 2016 年,ImageNet 中含有超过 1500 万由人手工注释的图片网址,也就是带标签的图片,标签说明了图片中的内容,超过 2.2 万个类别。其中,至少有 100 万张里面提供了边框(bounding box)。

主要事件

年份事件相关论文
2009当时李飞飞、Jia Deng 等研究员发表论文Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database." Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009.
2010第一届 ImageNet 挑战赛的开始,即 ImageNet 大规模视觉识别挑战赛(ILSVRC)NEC-UIUChttp://www.image-net.org/challenges/LSVRC/2010/index
2011Team XRCE applied high dimen- sional image signatures with compression using product quantization and one-vs-all SVMs.http://image-net.org/challenges/LSVRC/2011/ilsvrc11.pdf
20122012年 ImageNet 竞赛冠军的AlexNet标志着CNN 首次实现 Top 5 误差率 15.4% 的一年,当时的次优项误差率为 26.2%。这个表现震惊了整个计算机视觉界。可以说,是自那时起,CNN 才成了家喻户晓的名字。Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.]
2013ZF Nethttps://github.com/rugbyprof/5443-Data-Mining/wiki/ZF-Net
2014GoogleNetSzegedy, Christian, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. "Going deeper with convolutions." Cvpr, 2015.
2014VGGNetSimonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).
2015Microsoft ResNet by Kaiming Hehttps://arxiv.org/abs/1512.03385
2016CUImage
2017BDAT,最后一届ImageNet挑战赛http://image-net.org/challenges/talks_2017/ILSVRC2017_overview.pdf


发展分析

瓶颈

自从 2012 卷积神经网络在计算机视觉上取得极大的成功后,我们一直在探索拥有更强大机器视觉的可能性。这也令大家都看到了近来计算机视觉所存在的局限,比如说小数据集训练,虽然我们能使用预训练模型进行迁移学习,但每一个类别仍然需要成百上千的标注图像。还有比如说分清视觉的本质和外在,人类很容易分清楚穿了驯鹿服的狗还是狗,但计算机却十分容易将其分类为驯鹿。

【引用来源:[机器之心] CVPR 2017 李飞飞总结 8 年 ImageNet 历史,宣布挑战赛最终归于 Kaggle https://www.jiqizhixin.com/articles/2017-07-27-2

目前训练图像识别模型所需要的计算量相当大。海量的计算量意味着投入的时间和金钱 (比如,120万美元机器24分钟训练ImageNet,UC Berkeley展示全新并行处理方法, https://www.jiqizhixin.com/articles/2017-09-19-4)。如何在加速模型在ImageNet上的训练,或者如何精简ImageNet的数据集使得模型在小规模数据集上能训练得到更高的准确度,是研究人员关心的热点问题。

未来发展方向

ImageNet 2017 挑战赛是最后一届,李飞飞在 CVPR 2017 上表明 ImageNet 挑战赛以后将与 Kaggle 结合。她在演讲中欣喜地表明她们正在将接力棒传递给 Kaggle,不仅因为 Kaggle 社区是最大的数据科学社区,同时还因为她们认为只有将数据做到民主化才能实现 AI 民主化。虽然 ImageNet 挑战赛是最后一届了,但 image-net.org 仍然会一直存在,并致力于为计算机视觉做出更大的贡献。

Kaggle 拥有超过百万的数据科学家,它能大大地促进更多人参与 ImageNet 挑战赛。从最开始的 AlexNet 到后来的残差网络,我们已经看到 ImageNet 挑战赛催生出了许多优秀的计算机视觉解决方案。也许 ImageNet 加上 Kaggle 能继续在目标识别、目标定位和视频目标识别等任务上实现更大的突破,并解决如模型小型化、快速训练和更强的迁移学习等问题。

【引用来源:[机器之心] CVPR 2017 李飞飞总结 8 年 ImageNet 历史,宣布挑战赛最终归于 Kaggle https://www.jiqizhixin.com/articles/2017-07-27-2

Contributor:Hao Wang

相关人物
邓嘉
邓嘉
博士,普林斯顿大学计算机科学系助理教授,其研究集中于计算机视觉和机器学习领域。曾获得Sloan Research Fellowship、PAMI Mark Everingham Prize、 Yahoo ACE Award、Google Faculty Research Award、ICCV Marr Prize 以及 ECCV 最佳论文奖。
颜水成
颜水成
颜水成,新加坡国立大学副教授、360集团副总裁、人工智能研究院院长、第十三批国家 "千人计划"专家。颜水成的主要研究领域包括计算机视觉、深度学习、信息检索应用与多媒体分析。他带领的团队曾提出的“Network in Network” ,对深度学习产生了很大的推动力,同时他的团队开发的”Purine”是全球第一个开源的支持多机多GPU的深度学习系统。
李飞飞
李飞飞
李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。
Alex Krizhevsky
Alex Krizhevsky
何恺明
何恺明
Facebook AI Research研究科学家。Residual Net提出者。
简介
相关人物