思源、一鸣报道

21秒看尽ImageNet屠榜模型,60+模型架构同台献艺

60+模型架构,历年十几个 SOTA 模型,这 21 秒带你纵览图像识别的演进历史。

ImageNet 是 计算机视觉领域常用的数据集之一。在 图像分类、目标分割和 目标检测中有着无法撼动的地位。ImageNet 最初是由 李飞飞等人在 CVPR 2009 年发表的论文——「ImageNet: A Large-Scale Hierarchical Image Database」中发布的。多年来,ImageNet 的相关论文对业内有极大的影响。截至到当前,Google Scholar 上展示该论文有 12224 的引用量。这篇论文在 ImageNet 发布十周年之际,于 CVPR 2019 大会上获得了经典论文奖。

ImageNet 本身则是一个海量的带标注图像数据集。通过众包等方式进行标注,从 2007 年开始直到 2009 年完成。ImageNet 有超过 1500 万张图片,仅汽车图像的数量达到了 70 万张,类别数量为 2567 个。如此巨量、 标注错误极低且免费的数据集,已经成为 图像处理领域研究者首先接触的数据集之一。

毫不夸张的说,ImageNet 是 图像处理算法的试金石。从 2010 年起,每年 ImageNet 官方会举办挑战赛。2017 年后的比赛由 Kaggle 社区主持。自 2012 年 Hinton 等的团队提出 AlexNet 开始,每年都有层出不穷的模型希望在 ImageNet 排行榜上取得一席之地。

近日,PaperWithCode 网站发布了一段 21 秒的视频,在 ImageNet 发布十年的时刻,总结了历年来排行榜上取得一定效果的模型。

如上展示了 13 到 19 年的分类任务 SOTA 效果演进,真正有大幅度提升的方法很多都在 13 到 15 年提出,例如 Inception 结构、残差模块等等。

Leaderboard 地址:https://www.paperswithcode.com/sota/image-classification-on-imagenet

机器之心根据视频和网站内容进行了整理。以下为一些著名的模型、发布时间、Top-1 准确率参数量,以及相关的论文链接。发布时取得 SOTA 的模型名以红色字体标出。

这是一堆耳熟能详的模型

  • AlexNet

  • 提出时间:2012/9

  • Top-1 准确率:62.5%

  • 参数量:60M

  • 论文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

AlexNet 的架构示意图。

  • ZFNet

  • 提出时间:2013/11

  • Top-1 准确率:64%

  • 论文地址:https://arxiv.org/pdf/1311.2901v3.pdf

  • Inception V1

  • 提出时间:2014/9

  • Top-1 准确率:69.8%

  • 参数量:5M

  • 论文地址:https://arxiv.org/pdf/1409.4842v1.pdf

  • VGG-19

  • 提出时间:2014/9

  • Top-1 准确率:74%

  • 参数量:144M

  • 论文地址:https://arxiv.org/pdf/1409.1556v6.pdf

  • PReLU-Net

  • 提出时间:2015/2

  • Top-1 准确率:75.73%

  • 论文地址:https://arxiv.org/pdf/1502.01852v1.pdf


  • Inception V3

  • 提出时间:2015/12

  • Top-1 准确率:78.8%

  • 参数量:23.8M

  • 论文地址:https://arxiv.org/pdf/1512.00567v3.pdf

Inception V3。

  • ResNet 152

  • 提出时间:2015/12

  • Top-1 准确率:78.6%

  • 论文地址:https://arxiv.org/pdf/1512.03385v1.pdf

ResNet 的基本模块。

  • Inception ResNet V2

  • 提出时间:2016/2

  • Top-1 准确率:80.1%

  • 论文地址:https://arxiv.org/pdf/1602.07261v2.pdf


  • DenseNet-264

  • 提出时间:2016/8

  • Top-1 准确率:79.2%

  • 论文地址:https://arxiv.org/pdf/1608.06993v5.pdf

增长率为 4 的 DenseNet 架构。

  • ResNeXt-101 64×4

  • 提出时间:2016/11

  • Top-1 准确率:80.9%

  • 参数量:83.6M

  • 论文地址:https://arxiv.org/pdf/1611.05431v2.pdf


  • PolyNet

  • 提出时间:2016/11

  • Top-1 准确率:81.3%

  • 参数量:92M

  • 论文地址 https://arxiv.org/pdf/1611.05725v2.pdf


  • DPN-131

  • 提出时间:2017/7

  • Top-1 准确率:81.5%

  • 参数量:80M

  • 论文地址:https://arxiv.org/pdf/1707.01629v2.pdf


  • NASNET-A(6)

  • 提出时间:2017/7

  • Top-1 准确率:82.7%

  • 参数量:89M

  • 论文地址:https://arxiv.org/pdf/1707.07012v4.pdf

利用神经架构搜索(NAS)方法获得的模型(右图),相比左边的模型减少了参数量,效果得到了提升。

  • PNASNet-5

  • 提出时间:2017/12

  • Top-1 准确率:82.9%

  • 参数量:86.1M

  • 论文地址:https://arxiv.org/pdf/1712.00559v3.pdf

  • MobileNetV2

  • 提出时间:2018/1

  • Top-1 准确率:74.7%

  • 参数量:6.9M

  • 论文地址:https://arxiv.org/pdf/1801.04381v4.pdf

  • AmoebaNet-A

  • 提出时间:2018/2

  • Top-1 准确率:83.9%

  • 参数量:469M

  • 论文地址:https://arxiv.org/pdf/1802.01548v7.pdf

  • ResNeXt-101 32×48d

  • 提出时间:2018/5

  • Top-1 准确率:85.4%

  • 参数量:829M

  • 论文地址:https://arxiv.org/pdf/1805.00932v1.pdf

  • ShuffleNet V2 2×

  • 提出时间:2018/7

  • Top-1 准确率:75.4%

  • 参数量:7.4M

  • 论文地址:https://arxiv.org/pdf/1807.11164v1.pdf

  • EfficientNet

  • 提出时间:2019/5

  • Top-1 准确率:84.4%

  • 参数量:66M

  • 论文地址:https://arxiv.org/pdf/1905.11946v2.pdf

EfficientNet 论文中的架构对比。a)基线模型;b)- d)分别为对图像宽度、深度和分辨率的扫描架构;e)论文提出的可以将所有扫描架构融合在一起的网络结构。

  • FixResNeXt-101 32×48d

  • 提出时间:2019/6

  • Top-1 准确率:86.4%

  • 参数量:829M

  • 论文地址:https://arxiv.org/pdf/1906.06423v2.pdf

你发现了某些规律?

从屠榜模型来看,取得 SOTA 的模型 参数量在逐年增加。从有 60M 参数量的 AlexNet 到有着 829M 的 FixResNeXt-101 32×48d,模型一年比一年更大了。

但是也有很意外的情况,比如 DenseNet 获得了 CVPR 2017 的最佳论文,但是 DenseNet 并没有达到 SOTA 的效果。此外,名声在外的 ResNet 也仅仅是接近 2015 年的 SOTA 模型 Inception V3。但是,没有取得 SOTA 并不代表这些模型不好。它们给了后续工作很大的启发。

值得注意的是,从 2018 年开始,缩小模型 参数量的研究逐渐增多。可以看到有 MobileNet、ShuffleNet 等,可惜在性能上牺牲了很多。今年最著名的小型化模型是谷歌提出的 EfficientNet,仅有 66M 的 参数量,但已经接近目前的 SOTA 分数了。

了解模型架构可以看这里

机器之心也曾经介绍过很多博客与论文,它们是理解这些模型架构的好资源。以下都是一些综述性文章,它们非常适合全面了解架构的演变:

图像领域研究的未来

从近年来图像研究领域的论文主题来看,现在有几大研究方向值得关注。

首先,在算法领域, 生成对抗网络(GAN)的研究呈现井喷的趋势。越来越多的研究者尝试使用 GAN 进行图像方面的研究,如图像识别、 对抗样本攻击和防御,以及生成高清晰度图像、图像风格转换、直接生成新图像等方面的研究。也有部分学者尝试用 GAN 进行 目标检测

其次,在任务领域,有更多由静态图像转变为动态的视频图像、由 2D 图像研究转向 3D 图像和三维数据方面的研究。近年来,有更多的尝试研究视频领域中的 图像分类、目标分割和检测方面的算法出现,实现了诸如行人检测、人体姿态追踪等方面的应用。同时研究人员尝试使用 深度学习模型探究 3D 建模方面的表现。

最后,在模型方面,出现了模型 参数缩减和模型压缩方面的多种研究。很多学者研究在不影响模型性能的前提下进行模型 剪枝和压缩方面的技术,希望能够将性能优异模型部署在移动端或物联网设备上,实现本地化的模型推断。

理论AlexNet图像识别计算机视觉ImageNet
1
相关数据
李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

CliqueNet技术

在北大杨一博等研究者提出来的CliqueNet中,相比于DenseNet,每个Clique Block只有一张经过提炼的特征图会馈送到下一个Clique Block,这样就大大增加了参数效率。 DenseNet通过复用不同层级的特征图,减少了不同层间的相互依赖性,且最终的预测会利用所有层的信息而提升模型鲁棒性。但是Yunpeng Chen等研究者在论文Dual Path Networks中表示随着网络深度的增加,DenseNet中的密集型连接路径会线性地增加,因此参数会急剧地增加。这就导致了在不特定优化实现代码的情况下会消耗大量的GPU显存。而在北大杨一博等研究者提出来的CliqueNet中,每个Clique Block只有一张经过提炼的特征图会馈送到下一个Clique Block,这样就大大增加了参数效率。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

LeNet技术

LeNet 诞生于 1994 年,是最早的卷积神经网络之一,并且推动了深度学习领域的发展。自从 1988 年开始,在许多次成功的迭代后,这项由 Yann LeCun 完成的开拓性成果被命名为 LeNet5。LeNet5 的架构基于这样的观点:(尤其是)图像的特征分布在整张图像上,以及带有可学习参数的卷积是一种用少量参数在多个位置上提取相似特征的有效方式。在那时候,没有 GPU 帮助训练,甚至 CPU 的速度也很慢。因此,能够保存参数以及计算过程是一个关键进展。这和将每个像素用作一个大型多层神经网络的单独输入相反。LeNet5 阐述了那些像素不应该被使用在第一层,因为图像具有很强的空间相关性,而使用图像中独立的像素作为不同的输入特征则利用不到这些相关性。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~