Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Geek AI 张倩参与

更优的ImageNet模型可迁移性更强?谷歌大脑论文给出验证

现代计算机视觉研究的一个隐含的假设是,在 ImageNet 上性能更好的模型必定在其它的视觉任务上表现得更好。然而,这个假说从来没有被系统地验证过。谷歌大脑研究者在 3 组实验环境下对比了 13 个分类模型在 12 个图像分类任务上的性能。实验结果表明,ImageNet 架构在其它数据集上的泛化能力很强,在 ImageNet 数据集上的精确率的小小的提升就能够导致在其它数据集上性能的提升,但是 ImageNet 提取出的固定特征的泛化能力小于其架构的泛化能力。

过去十年来,计算机视觉研究一直将追赶学术上用于对比的基准模型的性能作为衡量进步的标准。然而没有任何一个基准能像 ImageNet [1] 一样被如此激烈地追赶。针对这一数据集构建的网络架构,在许多方面显著促进了计算机视觉研究的进步,包括将模型迁移到新的数据集 [2,3]、目标检测 [4]、图像分割 [5,6] 和图像质量评价 [7]。这一进展背后一个隐含的假设是,在 ImageNet 上性能更好的网络架构必定在其它视觉任务上表现得更好。另一个假设是,更好的网络架构能够学到更好的能在基于视觉的任务之间迁移的特征。尽管之前的研究已经为这些假说提供了一些证据(例如,[4,5,8-10]),但是这些假说还没有被系统地探究过。

在本文中,研究者试图通过研究 ImageNet 特征和 ImageNet 分类架构的可迁移性来检验这些假说。具体而言,研究者在 12 个图像分类数据集上对 13 个性能最好的图像分类卷积神经网络间的迁移学习进行了大规模的研究,实验环境如图 1 所示,包含以下三种类型:固定的特征提取器 [2,3],从 ImageNet 的初始化 [8,11,12] 环境中进行调优,从随机初始化开始训练。本文的主要贡献如下:

  • 最佳的 ImageNet 模型没有给出最佳的图像特征。在 ImageNet 上训练的 ResNet 模型 [14,15] 的特征始终优于那些在 ImageNet 上取得更高准确率的网络。

  • 当网络经过调优后,ImageNet 的准确率是迁移任务准确率的更强有力的指标(r^2 = 0.86),目前最先进的 ImageNet 架构在许多任务中取得了最佳性能。

  • 即使权重信息并不能在任务间很好地迁移,但是网络架构可以很好地被迁移。在 3 个小型细粒度分类数据集上,调优并不能为从随机初始化状态开始的训练提供显著的帮助,但是尽管如此,更好的 ImageNet 架构能取得更高的准确率

图 1: 细粒度数据集(FGVC 飞机)上的性能可以从调优或从头开始的训练中获得很大的提升,和 ImageNet 类似的数据集(CIFAR-10)上的提升则小一些。低维嵌入在从「inception v4」网络的倒数第二层中的特征上使用 t-SNE[13],用于测试集中的 10 个类别。

表 1: 在迁移学习中被检验的数据集。

图 2: 在 ImageNet 上取得的准确率对于迁移到其它数据集上的经过了调优的模型有很大的预测作用。每组图片都测量了使用固定的 ImageNet 特征(最上面的一组)、经过调优的网络(中间的一组)、以及随机初始化的网络(最下方的一组)在 ImageNet 上的准确率和迁移任务的准确率之间的相关性。左图:不同的训练环境下,在迁移数据集上的分类准确率(y 轴)和最佳的 ImageNet 模型的准确率(x 轴)之间的关系。右图:相对于数据集上所有分类器的平均值,在数据集上正确分类的平均对数几率。误差条表示标准差。与最佳模型没有显出差异(p>0.05)的模型对应的点为绿色。

图 3: 对网络进行调优在固定的 ImageNet 特征上或从随机初始化模型开始的训练得到的特征取得了比 logistic 回归更高的准确率。在固定的 ImageNet 特征上的 Logistic 回归和从随机初始化开始训练的网络的性能在很大程度上取决于数据集。图中的坐标经过了合理的放缩。

图 4: 对 ImageNet 调优取得了目前最好的性能。数据条表示 logistic 回归、参数调优以及从随机初始化开始训练的模型(不包括 VGG)准确率。误差条表示标准差。数据点代表独立的模型。黑色水平线代表之前最好的模型性能。

表 2: 最优模型的性能。

图 5: 在 ImageNet 上预训练的网络收敛得更快。每个点表示一个使用优化过的超参数训练的 inception v4 模型。图中的坐标轴被合理放缩过。

图 6: 在 ImageNet 上预训练能够提升拥有小规模数据的细粒度任务的性能。在不同规模数据集上的 Inception v4 模型的性能。误差条反映了 3 个子集的标准差。请注意,图中显示的最大数据集的大小并不是整个数据集的大小。

论文:Do Better ImageNet Models Transfer Better? 

论文链接:https://arxiv.org/pdf/1805.08974.pdf

摘要:随着 ImageNet 中提取出的特征的出现,迁移学习已经成为了计算机视觉的基石。然而评估 ImageNet 架构在不同数据集上的表现的研究却很少。现代计算机视觉研究的一个隐含的假设是,在 ImageNet 上性能更好的模型必定在其它的视觉任务上表现得更好。然而,这个假说从来没有被系统地验证过。在本文中,研究者在 3 组实验环境(固定的特征提取器、经过调优的网络权重、从随机初始化开始训练)下对比了 13 个分类模型在 12 个图像分类任务上的性能。研究者发现,当网络直接被用作固定的特征提取器时,在 ImageNet 上的准确率对它在其它网络上准确率的预测能力很弱(r^2=0.24)。在这种情况下,ResNet 的迁移能力始终优于那些在 ImageNet 上取得更高的准确率的网络。当网络经过调优后,研究者观察到一个显著增强的 ImageNet 的准确率和迁移任务的准确率之间的相关性(r^2=0.86)。研究者通过对目前最先进的 ImageNet 架构进行调优在 8 个图像分类任务上取得了目前最好的模型性能,超越了之前基于专门的迁移学习方法得到的结果。最后,研究者观察到,在 3 个小型细粒度图像分类数据集上,从随机初始化开始训练而来的网络和用 ImageNet 预训练的网络的性能相似。总而言之,本文的实验结果表明,ImageNet 架构在其它数据集上的泛化能力很强,在 ImageNet 数据集上的精确率的小小的提升就能够导致在其它数据集上性能的提升,但是 ImageNet 提取出的固定特征的泛化能力小于其架构的泛化能力。

理论论文谷歌大脑计算机视觉ImageNet
31
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

t分布随机邻嵌入技术

t分布随机邻嵌入(t-SNE)是由Geoffrey Hinton和Laurens van der Maaten 开发的一种降维的机器学习算法。 这是一种非线性降维技术,特别适合将高维数据嵌入到二维或三维空间,然后可以在散点图中将其可视化。 具体来说,它通过二维或三维点对每个高维对象进行建模,使得类似的对象由附近的点建模,不相似的对象由远点建模。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

推荐文章
翻译有很多瑕疵