Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

西安大略大学、纽约大学、字节跳动机器之心专栏

CVPR 2022 | 应对噪声标签,西安大略大学、字节跳动等提出对比正则化方法

来自西安大略大学、纽约大学和字节跳动的研究者回答了一个重要的问题,即如何从带有噪声标签的数据集中学到可靠模型。

噪声标签(Noisy labels)随着深度学习研究的深入得到广泛的关注,因为在众多实际落地的场景模型的训练都离不开真实可靠的标签信息。由于人工标注误差(专业性不足等问题)、数据原始噪声,带噪声的数据不可避免,清洗数据的工作也是更加困难。 

在有监督的图像分类问题中,经典的 cross-entropy (CE) 损失函数是最为广泛应用的函数之一。当数据集不存在任何的噪声标签的时候,它往往能带来非常不错的效果。然而,当数据集中存在噪声标签的时候,它会导致模型对噪声标签过拟合,使模型的泛化性变差。本文从对比学习的角度研究了如何通过约束图像的特征来防止模型对噪声标签的过拟合

现有的解决噪声标签的问题有基于 robust regularization, label correction, loss reweighting, 和 robust loss functions 等。本文的研究动机源于 robust loss functions。为了防止模型对噪声标签过拟合,现有的对噪声鲁棒的损失函数(mean absolute error (MAE)[1,2],reverse cross-entropy loss (RCE) [3] 等)在一定程度上解决了噪声标签过拟合的同时,也存在对数据欠拟合的问题[4,5]。在实际应用中,这些对噪声鲁棒的损失函数是结合 CE 一起使用的,而 CE 容易造成对噪声数据的过拟合问题。因此我们思考,能否仅仅通过约束图像的特征,使整个模型仍然可以用 CE 训练且不受噪声标签的影响。

近期,来自西安大略大学,纽约大学以及字节跳动的学者们研究了如何从带有噪声标签的数据集中学到可靠的模型,这一基础且重要的问题。本工作主要由西安大略大学统计及精算系的易立完成,通讯作者为西安大略大学计算机系的助理教授王博予。图片

论文地址:https://arxiv.org/abs/2203.01785

本文主要回答了两个问题:(1)基于对比学习得到的图像特征能给在标签噪声中学习带来什么好处; (2)如何从噪声数据中学到基于对比学习的图像特征。在之后的实验部分,我们也展示了此方法可以和现有的带噪学习的方法相结合,能进一步提升模型的表现。这项研究已被 CVPR2022 接收。

分析

首先,我们观测到模型在干净的数据集和噪声数据集下的表现是不同的。具体来说,模型从干净的数据集中学习,捕捉到的图像信息是和干净的标签相关的。模型从噪声数据中学习,捕捉到的图像信息是和噪声标签相关的。下图所显示的是 Grad-CAM 可视化,在噪声数据集中,对于被错标的图片来说,模型会更加关注跟图像真实标签无关的信息。当数据集是干净的情况下,模型会利用跟真实标签相关的信息去预测。

根据这项观察,我们假设两张正确标记的相同标签的图片所携的关于干净标签的信息应该是很相关的,并且它们所携带的关于错误标签的信息应该是无关的。基于此假设,我们证明了学到的特征携带丰富的与干净标签相关的信息,保证了模型不会欠拟合正确标记的样本。同时,此特征携带较少的与错误标签相关的信息,保证了模型不会过拟合错标的样本。为了方便,我们记学到的最优特征为 Z*。

为了验证 Z* 含有 (1) 丰富的与干净标签相关的信息, 和 (2) 少量的与噪声标签相关的信息,我们先用干净的数据集训练图像的特征模型,然后我们在特征模型上用带噪声标签的数据集训练一个线性分类器。作为对比,我们用 CE 损失函数在干净的数据集上训练神经网上并提取它的特征模型,然后在此特征上用同样的噪声数据集训练一个线性分类器。我们可以观测到,线性分类器在基于对比学习的特征模型上表现更好,说明对比学习下的图像特征确实有效的防止了对噪声标签的过拟合,同时也不会产生欠拟合的问题。

图片

算法

本节中,我们以 SimSiam 对比学习框架 [6] 为例,分析了如何在有标签噪声的情况下学习特征模型。实际情况中,我们无法获得每张图片的真实标签。最自然的想法就是用模型的预测值作为样本的伪标签,然后优化公式:

图片

这里图片是一个 encoder, h是一个 prediction MLP, p 是模型的概率输出, 最后的指示函数是用来判断两个样本的是否来自于同一类,τ 是超参数。从梯度的角度分析,优化公式 1 将会导致错误的样本主导特征模型的学习。

根据之前的工作 [7] ,神经网络倾向于先拟合正确标记的样本,然后去拟合错误标记的样本。我们让两个来自同类的干净样本为图片和另一个被错误标记为此类的样本为 x_m 。在模型刚开始训练的阶段时,正确的样本先被拟合。模型对图片的预测为图片并且容易产生图片。一旦图片, 模型会使图片。过了模型训练的早期阶段,模型会开始拟合错误的样本x_m,使得模型对x_m的预测p_m慢慢靠近p_i并且最终图片。此时图片, 模型会开始拉近图片的特征,通过计算梯度,我们发现由错误标签样本产生的梯度已经远远大于正确样本产生的梯度。因此,如果采用公式 1 作为目标函数,错标的样本主导了特征模型的学习。

图片

我们从梯度的角度出发,在不改变目标函数最优解的情况下,防止了错标的样本主导模型的学习。我们提出新的目标函数来学习特征模型:

图片

类似的,我们分析其梯度

图片

可以得出,由正确的样本产生的梯度大于由错标的样本产生的梯度。这样的特征模型的学将由正确标记的样本主导。实验中,我们也验证了,改进后的目标函数能带来更好的表现。

实验

首先,我们在 CIFAR 数据集中添加人工噪声来验证提出的目标函数 2,如下表 1-2 所示。在同样噪声下,我们的方法(CTRR)与其他 baselines 相比,取得了不错的结果,尤其是在噪声很高的情况。

图片

其次,我们也在两个真实的噪声数据集中测试了 CTRR 的效果,结果如下表 3 所示。在真实的噪声数据集中,我们也得到了相同的结论。

图片

除此之外,我们也对比了公式 1 和公式 2,如图所示。我们在 CIFAR-10 数据集中添加不同程度的噪声,发现我们以提出的公式 2 作为目标函数在不同程度的噪声下始终优于公式 1。

图片

在我们的方法中,图像特征的学习是基于 SimSiam 框架,但是实验显示,我们的方法不限于 SimSiam 框架。如下表所示,CTRR 仍然可以在 SimCLR 和 BYOL 框架下使用。在 BYOL 框架下,CTRR 取得的效果更好。

图片

本文的重点在于阐述如何从噪声数据集中学到基于对比的图像特征。但从提升效果的角度,CTRR 还有很大的进步空间。首先,如表 6 所示,我们在 CTRR 的基础上,加入了基于标签纠正的技巧,发现模型在验证集上的准确率都有不同程度的提升。其次,如表 7 所示,将 CTRR 和其他对噪声鲁棒的损失函数 (例如 GCE) 结合起来使用将会带来显著的提升。

图片

结论

本文从一种新的角度出发,提出了一种简单有效的方法解决模型过拟合噪声的问题。从理论角度出发,我们分析了基于对比的图像特征本身对噪声有一定程度的鲁棒性。从算法角度出发,我们提出了对噪声鲁棒的的目标函数来学习可靠的图像特征。首先,通过一些实验我们验证了 CTRR 的有效性。其次,实验也显示 CTRR 在不同的框架下也可以取得非常不错的效果,体现了 CTRR 的灵活性。最后,通过与不同方法的结合,CTRR 的性能还可以得到进一步的提升。我们相信 CTRR 可以与更多的方法结合,来更好地解决数据中带有噪声标签的问题。

理论对比学习框架噪声标签
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

欠拟合技术

使用太少参数,以致于不能很好的拟合数据,称为拟合不足(欠拟合)现象

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

推荐文章
暂无评论
暂无评论~