Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

在ViT、MLP-Mixer等进行4800多次实验,谷歌发现大规模预训练存在瓶颈

大规模预训练模型在各种任务上取得了不错的性能,但是也存在一些限制。来自谷歌的研究者系统地研究了大规模预训练模型在图像识别任务中扩大数据、增加模型大小和训练时间对各种下游任务的影响,并查明限制、原因,以提供指导。


大规模机器学习研究的最新进展表明,通过适当地扩大数据、增加模型大小和训练时间,会提高预训练模型迁移到下游任务中的性能。一个突出的示例是 Brown 等人的研究,他们表明 GPT-3 在小样本(few-shot)设置下,在许多自然语言处理任务以及基准上取得了显著性能,而 GPT-3 就是一个在大量数据上训练而成的大型 transformer 模型。在图像识别任务中,对 Instagram 图像、 JFT-300 的训练已被证明在迁移和小样本设置中非常有效,即使没有提供示例(零样本),像 CLIP 这样的模型也能取得不错性能。 

所有这些模型的发展都暗含着两种一致的观点:1) 扩大模型和数据规模可以显著提高性能;2) 上游任务性能的改进以理想的方式迁移到下游任务。

这些观点表明,在一个大规模语料库上花费计算和研究精力来提高性能是有回报的,因为这将使我们能够很轻松地解决许多下游任务。这也意味着在提高上游性能的同时,我们不需要担心下游任务,因为它们的改进是基于线性趋势的。

事实真的是这样吗?(通过适当地扩大数据、增加模型大小和训练时间,会提高预训练模型迁移到下游任务中的性能。)来自谷歌的研究者系统地研究了这种现象,并确定随着上游任务(US)准确率的提高,下游任务(DS)的性能会达到饱和。特别是,该研究探索了超过 4800 次关于 Vision Transformer、MLP-Mixer 和 ResNets 的实验,这些模型的参数数量从一千万到一百亿不等,同时,他们在最大规模的可用图像数据(JFT-300M、ImageNet21K)上进行训练,并在超过 20 个下游图像识别任务上进行了实验。

该研究提出了一个可用于下游任务性能的模型,该模型能够反映饱和现象,并且该模型还能捕获上游和下游任务性能的非线性关系。该研究通过深入研究导致这些现象的原因,观察到这种饱和行为与通过模型层演变的表示方式密切相关。此外,该研究还展示了一个更极端的场景,即上游和下游任务的性能相互矛盾,也就是说,为了获得更好的下游性能,我们需要损害上游的准确率

论文地址:https://arxiv.org/pdf/2110.02095.pdf

佐治亚理工学院机器学习博士生 Aran Komatsuzaki 在推特上表示:「这是一篇探索大规模预训练局限性的文章,他们在 ViT、MLP-Mixer 以及 ResNets 上进行了超过 4800 次实验,参数量高达 10B,并在超过 20 个下游图像任务上进行了评估。研究发现,当我们增加上游任务的准确率时,下游任务的性能就会达到饱和。」

还有网友表示:这是一篇很不错的文章,但是我想了解一些关于数据多样性的研究。

迁移学习效益递减

迁移学习旨在下游任务中具有良好的表现。该研究解决的首个问题是上游任务的性能改进,是如何影响下游任务性能的。

下游任务准确率的扩展规律

下图 1 显示了在超过 3000 次实验的 DS-vs-US ( downstream-vs- upstream  )性能,其中不同架构在 JFT 上进行了预训练,并在小样本设置 (k = 25)的一组 DS 任务上进行了评估。图 2 展示了在 4800 次实验上(在 JFT 或 ImageNet21K 上预训练)的相似图,分别为 1 或 25 个 shot。 

鉴于模型的性能,研究者想要了解如果提高 US 性能,那么 DS 的性能将如何变化?为此,该研究将曲线拟合到 DS-vs-US 性能图,并强调他们的分析与之前的分析方法大不相同,因为之前方法都是分析了 DS 准确率与 US 准确率,而不是 DS 准确率与数据集大小、模型大小或计算存在的关系。由于 US 的大部分性能改进是通过扩展(数据集大小、模型大小、计算)实现的,因此这种方法间接捕获了扩展带来的影响。 

图 1:基于 1500 多个不同的 Vision Transformer、1400 个 MLP-Mixer 和 16 个性能最佳的 ResNet,不同下游任务与上游任务的性能结果。

正如我们在图 2 中看到的,不同的 DS 任务具有不同的饱和值,并且该值随着 US 任务的变化而变化。此外,当改变 shot 数量时,eIR( Irreducible error )也会发生变化。该研究还比较了使用不同 US 数据集(ImageNet21K 和 JFT)训练的模型以及用于迁移的不同 shot 数的相同 DS 任务集的 DS-vs-US 准确率。研究发现饱和时的 DS 准确率依赖于 US 数据集。

为了更清楚地描述这一结果,该研究在图 3 中绘制了不同选择如何影响幂定律参数(power law)。可以看出,US 和 DS 任务的选择将会影响所有的参数 ,而 shot 主要影响 eIR。具体来说,增加 shot 次数会导致 eIR 降低。

数据大小、模型大小、epoch 数量研究

该研究还进行了一组控制实验,他们增加了数据大小、模型大小、epoch 数量,并对由此产生的 DS-vs-US 准确率图进行了研究。

为了便于与早期实验进行比较,在图 5 中,该研究将新的点与图 1 的点重叠;控制实验中的点用颜色显示,图 1 中的点以灰色显示。下图描述了随着 US 数据的增大(从 JFT 的 2% 增加到 100%),DS-vs-US 准确率的变化趋势,模型包括 ViT-Tiny、ViT-Small、Vit-Base、ViT-Large,epoch 的数量为 7、14、 21。

相似的趋势:图 5 中的对照实验显示出与图 1 和图 2 相似的趋势。也就是说,当扩展数据集大小、模型大小和 epoch 数时,对于不同的 DS 任务,DS-vs-US 准确率呈现不同的趋势。某些 DS 任务,性能会更快地饱和,并且超出此范围,然而提高 US 的性能并不会显著改进 DS 性能。

网格搜索等价性:与数据大小和 epoch 数相比,模型大小对提高 US、DS 准确率的影响更为明显。但是请注意,如果我们保持三个参数中的任意两个固定并增加第三个,则这些点将会位于同一条曲线上。在图 5 中,改变数据大小和 epoch 数的影响与改变模型大小的影响在同一条曲线上。因此,我们可以相信,即使我们对所有这些参数进行网格搜索,图 1 仍会呈现相同的图片。

参数的作用:数据大小、模型大小、epoch 数并不是影响 DS 准确率的唯一因素。当对这三个参数进行控制实验时,这些点最终在同一条曲线上。图 1 中观察到的变化是由于不同的架构、训练超参数和算法的选择产生的结果。超参数的影响引起的变化导致图 1 中的点不在同一条曲线上。

探索不同的 DS-vs-US 趋势

该研究还探索了 DS-vs-US 准确率中饱和行为背后的原因,并解释为什么与其他任务相比,某些 DS 任务的饱和发生得更早。首先,他们将 ImageNet DS-vs-US 图的凸包叠加在所有 DS 任务的 DS-vs-US 图上。图 6 和图 29(在附录 C.3 中)分别显示了 US 任务是 JFT 和 ImageNet21K 的情况。通过实验可以观察到:(1)性能最佳的 ImageNet 模型在几个但不是所有 DS 任务中的性能与性能最佳的模型非常相似。(2) 随着 US 性能的提高,性能最好的 ImageNet 模型和性能最好的 DS 任务模型之间的差距显著缩小。 

正如 Yosinski 等人所讨论的,较低层的网络捕获较低层的特征,这种特征广泛存在于不同的数据集和任务中,而细粒度的特征存在于网络的顶部。此外,在较高层次中学习的示例在之后的模型中会进行学习,置信度较低,不确定性较高。受到这些观察结果的启发,该研究对应用在预训练模型的不同层表示之上的小样本分类器的性能进行了观察。图 7 展示了这个结果。

图 7:研究人员展示了从不同层选择的表示对下游任务性能的影响,以及当上游任务为 JFT 时,扩展(模型、数据和计算)对下游任务性能的影响。
 
由上述研究可以得出,US 准确率的提升并不能转化为 DS 的性能改进,在做大规模预训练模型的你,是否遇到过相似的情况。

理论
相关数据
曲线拟合技术

曲线拟合(fit theory),俗称拉曲线,是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合 (fitting)。

网格搜索技术

网格搜索是一项模型超参数优化技术,常用于优化三个或者更少数量的超参数,本质是一种穷举法。对于每个超参数,使用者选择一个较小的有限集去探索。然后,这些超参数笛卡尔乘积得到若干组超参数。网格搜索使用每组超参数训练模型,挑选验证集误差最小的超参数作为最好的超参数。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~