Benjamin Recht等作者

ImageNet分类器可以泛化到ImageNet上吗?

当前的分类模型泛化到新数据时总会有不同程度的准确率下降,传统观点认为这种下降与模型的适应性相关。但本文通过实验证明,准确率下降的原因是模型无法泛化到比原始测试集中更难分类的图像上。

机器学习的首要目标是生成泛化模型。我们常通过测量模型在测试集上的性能来量化模型的泛化能力。在测试集上的良好性能是指什么?至少在遵循相同的数据清理协议时,模型在由相同数据源组成的新测试集上也能表现良好。

在本文中,研究人员通过复制两个重要基线数据集(CIFAR-10 和 ImageNet)的创建过程来实现这一实验。与理想结果相反,他们发现很多分类模型未能达到其原始的准确率分数。CIFAR-10 的准确率下降了 3%~15%,ImageNet准确率下降了 11%~14%。在 ImageNet 上,损失的准确率大概需要机器学习研究高度活跃时期五年的进步来弥补。

传统观点认为,出现这种下降的原因是模型已经适应了原始测试集中的特定图像,例如,通过广泛的超参数调整。然而,本文的实验表明,模型的相对顺序在新测试集上几乎保持不变:在原始测试集上具有最高准确率的模型仍然是新测试集上具有最高准确率的模型。而且,准确率方面也没有递减。实际上,原始测试集上的准确率每提高一个百分点都意味着新测试集上更大的改进。因此,虽然后来的模型本可以更好地适应测试集,但它们的准确率下降较小。实验结果证明,全面的测试集评估是改进图像分类模型的有效方法。因此,自适应性不太可能是准确率下降的原因。

相反,研究人员基于原始和新测试集的相对难度提出了另一种解释。他们证明,如果新数据集只包含候选池中最简单的图像,几乎可以完全恢复原始的 ImageNet 准确率。这表明即使是最好的图像分类器,其准确率分数也对数据清理过程的细节高度敏感。它还表明,即使在精心控制的重复性实验的良性环境中,目前的分类器仍然不能可靠地泛化。

图 1 显示了实验的主要结果。为了支持未来研究,研究人员还发布了新的测试集和相应的代码。

图 1:在原始测试集和新测试集上的模型准确率。每个数据点对应于测试平台中的一个模型(显示为 95%的 Clopper-Pearson 置信区间)。该图揭示了两个主要现象:1)从原始测试集到新测试集的准确率明显下降。2)模型准确率遵循斜率大于 1 的线性函数(CIFAR-10 为 1.7,ImageNet 为 1.1)。这意味着原始测试集上的每个百分点的改进会转换为新测试集上超过一个百分点的改进。从上图可以直观地对比两边的斜率。红色区域是 10 万个 bootstrap 样本线性拟合的 95%置信区域。

论文:Do ImageNet Classifiers Generalize to ImageNet?

论文地址:http://people.csail.mit.edu/ludwigs/papers/imagenet.pdf

摘要:我们为 CIFAR-10 和 ImageNet 数据集构建了新的测试集。这两个基准测试集近十年来一直是研究的焦点,增加了过度重复使用测试集的风险。通过密切关注原始数据集创建过程,我们测试了当前分类模型泛化到新数据的程度。我们评估了大量模型,发现在 CIFAR-10 上的准确率下降了 3%~15%,在 ImageNet 上的准确率下降了 11%~14%。但是,原始测试集上准确率的改进能够为新测试集带来更大的改进。结果表明,准确率下降不是由适应性造成的,而是由于模型无法泛化到比原始测试集中更难分类的图像上。

实验总结

可重复性实验的主要步骤如下。附录 B 和 C 详细地描述了此方法。第一步是选择信息性数据集。

表 1:原始 CIFAR-10 测试集、原始 ImageNet 验证集和新测试集上的模型准确率。ΔRank 是所有模型完整排序中从原始测试集到新测试集的排名相对差异(参见附录 B.3.3 和 C.4.4)。例如,ΔRank= -2 意味着与原始测试集相比,新测试集上的模型下降了两名。置信区间为 95%的 Clopper-Pearson 区间。由于篇幅限制,模型的参考资料见附录 B.3.2 和 C.4.3。

表 2:三种采样策略对 ImageNet 测试集的影响。该表显示了结果数据集中的平均 MTurk 选择频率,以及与原始验证集相比模型准确率的平均变化。所有三个测试集的平均选择频率都超过 0.7,但模型准确率仍然相差很大。相比之下,在 MTurk 实验中,原始 ImageNet 验证集的平均选择频率为 0.71。在 top-1 和 top-5 中,平均准确率的变化分别为 14%和 10%。这表明采样策略的细节对结果的准确率有很大影响。

图 2:原始 ImageNet 验证集上的模型准确率 vs. 新测试集的两个变体上的准确率。每个数据点对应于测试平台中的一个模型(显示为 95%的 Clopper-Pearson 置信区间)。阈值为 0.7 时,模型准确率比在原始测试集上低了 3%。在 MTurk 工作人员最常选择图像的 TopImages 上,模型的性能比在原始测试集上提高了 2%。两个数据集的准确率都遵循线性函数规律,类似于图 1 中的 MatchedFrequency。红色阴影区域是 10 万个 bootstrap 样本线性拟合的 95%置信区域。

理论ImageNet
1
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

数据清理技术

数据清理(data cleansing)指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

推荐文章
暂无评论
暂无评论~