机器之心编辑部机器之心发布

领域前沿研究「无所不包」 ,走进标签噪声表征学习的过去、现在和未来

抗噪鲁棒性学习是机器学习中一个非常重要和热门的领域,各类方法也层出不穷。在本文中,来自香港浸会大学、清华大学等机构的研究者对标签噪声表征学习(LNRL)的方方面面进行了全方位的综述。

监督学习方法通常依赖精确的标注数据,然而在真实场景下数据误标注(标签噪声)问题不可避免。例如,对于数据本身存在不确定性的医疗任务,领域专家也无法给出完全可信的诊断结果(下图 1);基于用户反馈的垃圾邮件过滤程序,用户作为标注人员存在行为的不确定性(例如误点击)。不论是从理论还是从实验角度,人们均发现常见的学习算法会受到标签噪声的负面影响,因此对标签噪声鲁棒的统计学习方法受到广泛的关注。

图 1:前列腺癌变组织,医疗专家给出的不同标注。

在大数据和深度学习的背景下,标签噪声的研究如今有更加重要的意义。一方面,过去基于统计一致性的方法在深度学习领域表现欠佳,而使用非专家提供的噪声标注(如众包平台)则是解决深度学习 data-hungry 问题的重要技术。另一方面,标签噪声对神经网络性能的影响反过来促进了深度学习的理论研究,加深人们对深度学习本质的理解。

深度学习框架下的标签噪声问题(Label Noise Representation Learning, LNRL)最近受到越来越多的关注。在 NeurIPS、ICML 等机器学习顶会中,LNRL 相关文章从 2015 年的 5 至 6 篇迅速增长到如今的几十篇(下图 2)。李飞飞、Yoshua Bengio 等著名学者均发表了大量相关文章。

图 2:机器学习顶会 2015-2020 年间标签噪声相关文章变化趋势。

本文介绍了 LNRL 的最新综述论文《A Survey of Label-noise Representation Learning: Past, Present, and Future》,其中包含超百篇领域前沿文章。论文作者分别来自香港浸会大学、清华大学、香港科技大学、悉尼大学、悉尼科技大学、日本理化研究所和第四范式。

  • 论文地址:https://arxiv.org/abs/2011.04406

  • Github 地址:https://github.com/bhanML/label-noise-papers


引言

监督学习通常默认训练数据的标签可信,然而高置信度的数据标注在实际工程中可能难以获取。由于基于统计学习的噪声鲁棒学习算法对于深度学习而言并不完全适用,因此这篇综述论文关注针对深度学习的鲁棒学习算法,调研 LNRL 的前沿算法,探讨 LNRL 领域现状和未来发展趋势。

文章结构如下:

  • 机器学习的角度给出 LNRL 问题的定义及其形式化描述。该定义广泛适用于已有 LNRL 方法,阐明了 LNRL 问题的目标和通用的解决思路;

  • 从学习理论的角度解释为何深度模型的性能会受到标签噪声的负面影响;

  • 将已有 LNRL 工作分为三大类(数据、目标和优化),讨论各类方法的关键思想和优缺点;

  • 总结 LNRL 的核心问题,希望藉此启发标签噪声表征学习领域中新的研究方向;

  • 探讨领域中未来有潜力的研究方向及其他相关的研究领域。


问题定义

首先给出经典机器学习定义,形式化地描述了 LNRL 问题,并提供相关示例(下图 3)。

定义 1. 机器学习:计算机程序在任务(Task)T 的性能(Performance)P 可以通过经验(Experience)E 提升,则称该程序可以从经验 E 中学习以性能 P 来衡量的任务 T。

该定义在监督学习问题下对应一组从分布中i.i.d. 采样的训练数据机器学习算法通过训练数据可以找到最优分类器。 

定义 2. 标签噪声表征学习 (Label-Noise Representation Learning, LNRL):LNRL 是一类特殊的机器学习任务,由定义 1 中的经验 E、任务 T、以及性能 P 指定。其中,E 包含对于 T 的带噪监督信息(noisy supervised information),且神经网络被用于对 T 建模。
考虑一组从噪声分布中 i.i.d. 采样的训练数据,其中数据的噪声标注可能与其对应的真实标注不同。LNRL 问题希望设计对于标签噪声鲁棒的学习算法:在仅给定带噪训练数据的情况下,仍能使神经网络模型对于测试数据给出准确的预测。

图 3:LNRL 问题的三个示例。

理论分析

理想情况下的训练数据没有标签噪声,,损失函数对应的泛化误差为 。若存在标签噪声,经验风险为

由于相对于有偏,研究者希望针对标签噪声问题设计损失函数。校正后的损失函数在噪声训练数据下的经验风险为

下图 4 给出标签噪声情形下泛化性能的差距。论文分别从数据(Data)层面、目标(Objective)层面和优化(Optimization)层面给出 LNRL 问题的基础理论分析。

图 4:在标签噪声情形下,使用原损失函数和修改后的损失函数泛化性能的差距。 

数据层面:从数据本身来讲,我们希望对其分布的标签噪声特性进行建模。直观上,如果噪声性质已知或者本身可以从带噪训练数据中估计,则其可以作为辅助信息帮助我们处理标签噪声。论文主要关注原类别后验概率与噪声类别后验概率之间的联系,通常称为噪声转移概率(noise transition probability),定义为

对于噪声转移概率的研究可以追溯至 2014 年,主流工作假设噪声转移概率与实例特征无关,即。噪声转移概率通常写作矩阵的形式,称为噪声转移矩阵(noise transition matrix)。噪声转移矩阵估计方法请参考文献 [1,2]。

图 5:图像分类任务(船、猫和狗)噪声转移矩阵示例。

以图像分类任务为例(图 5),噪声转移矩阵描述如下现象:「狗」的图片容易被误标为「猫」而不大可能被误标为「船」,且每张狗的图像有相同的概率被误标为「猫」(或「船」)。至于为何噪声转移矩阵是处理标签噪声的重要工具,从如下等式可见一斑:

其表示,在给定噪声转移矩阵时,仅需带噪数据的后验便可估计其原始数据的后验。在 LNRL 问题中,噪声转移矩阵既可用于构建满足统计一致性的学习算法,也可用于从对噪声数据进行清洗,删除潜在的误标注数据。

目标层面:从目标函数的角度,LNRL 关注如何通过修正损失函数设计对于(未知)无噪数据分布满足一致性的学习算法。宏观上,在带噪数据下使用修正后的损失函数,如果计算的风险(带噪数据分布下损失函数的均值)与(未知)干净数据下计算的风险一致,则可以在仅给定噪声数据的情况下优化得到鲁棒分类器的收敛性可根据 PAC 学习理论给出:若校正后的损失函数针对 LNRL 问题无偏,则有至少的概率使得成立,其中表示干净数据分布的贝叶斯风险,为 Lipschitz 常数,函数单调递增,且。由于神经网络的偏差项近似等于 0,因此当数据规模足够大,上界总体趋近于 0。由此可知,合理校正的损失函数可以仅从噪声数据分布中学习对标签噪声鲁棒的分类器,经典方法请参考文献 [3]。

优化层面:优化层面 LNRL 问题关注优化算法的动态过程。虽然过参数化特性使得深度学习可以拟合噪声数据(甚至完全随机标注的数据),神经网络在训练早期仍会尝试从数据中学习有意义的模式。以单隐层神经网络为例,在 LNRL 下使用随机梯度下降优化有如下结论:假设训练样本呈簇状分布(簇中心矩阵)。当噪声率小于阈值,随机梯度下降进行次迭代后满足

其中训练样本离至少一个簇中心距离小于衡量簇间的相似性,为定常数。该定理验证网络模型在训练初期一定程度上对噪声鲁棒,意味着神经网络在自身的训练过程中可以对错误标签进行清洗。

方法分类

与理论分析对应,研究者将 LNRL 方法分为三大类(下图 6):

数据:利用噪声转移矩阵作为辅助信息,设计满足统计一致性的学习算法。当噪声转移矩阵未知,可将其作为可学习参数内嵌至神经网络,以端到端的形式与网络模型参数一起学习(Adaptation Layer);当噪声转移矩阵已知,可以直接用于对损失函数进行校正(Loss Correction);此外,噪声转移矩阵的估计、修正还可以结合领域知识或人的先验(Prior Knowledge);

目标函数:目标函数可以通过正则化项来约束(Regularization);重加权方法也是设计鲁棒学习算法的重要技术(Reweighting);此外,还可以根据标签噪声本身的性质或其他模型评价指标来设计优化目标(Redesigning);

优化:神经网络优先学习有意义的模式,并逐步拟合误标注数据(Memorization Effect)。因此,在迭代优化过程中,仅对损失值较小的样本进行反向梯度传播通常可以降低噪声标签的负面影响。此技术在 LNRL 问题下应用广泛,被称为小损耗样本选择。常见的方法有利用单一模型的自学习方法(Self-Training)以及通过多个模型相互合作的共同学习方法(Co-Training)。

图 6:已有 LNRL 方法的分类。

具体分类 - 数据

噪声转移矩阵描述噪声标签与真标签间的联系,是解决 LNRL 问题的经典技术。前沿方法通常使用前向 / 后向校正(Forward/Backward Correction)来保证算法的统计一致性和收敛性 [1]。

直观上,前向矫正对神经网络预测进行污染,污染后的模型可以直接用于对噪声数据进行拟合。由于噪声转移矩阵吸收了噪声的影响,底层的神经网络可以学习更加鲁棒的模式 / 特征。后向矫正对噪声标签进行修正,修正后的标签用于神经网络模型的训练。

前向 / 后向校正默认噪声转移矩阵已知或可以估计。噪声转移矩阵可以通过端到端的形式训练(Adaptation Layer)或通过两步法进行估计(Loss Correction)。 
  • Adaptation Layer:端到端方式通常利用前向矫正技术,因为前向矫正可以将噪声转移矩阵参数更好地嵌入到神经网络(见下图 7)。此类方法一个潜在的不足在于噪声转移矩阵可能估计的并不是太准,通常需要正则化对矩阵结构进行约束;

  • Loss Correction:两步法假设训练数据存在「锚点」。锚点对应噪声标签的后验概率,与转移矩阵中的(某行)元素对应。锚点的查找仅利用噪声标签后验,因此在仅给定带噪训练数据的情形下,此类方法仍然可以给出较为准确的估计 [2]。此类技术潜在的不足在于,训练数据并不一定存在锚点;

  • Prior Information:噪声转移矩阵估算的准确度直接影响目标分类器的性能,因此一些方法试图使用先验知识来保障其估算精度。常见的辅助信息有额外的(小规模)无噪数据和矩阵的结构性先验。

图 7:Adaptation Layer 相关方法的架构。

具体分类 - 目标

目标函数的修改方式有很多,例如正则(Regularization)、重加权(Reweighting)以及重新设计的优化目标(Redesigning)。
  • Regularization:正则化项可以有效防止神经网络过拟合,限制模型对噪声的拟合。正则方法通常分为显式正则和隐式正则。显式正则方法通常直接限制模型的表征能力,例如组范数正则、VAT、最小信息熵以及 Dropout;隐式正则方法通常防止模型对数据标注过度信任,例如自举检验和 Mixup;

  • Reweighting:重加权技术希望减轻误标注数据对优化目标的贡献。理想情况下,误标注数据权重趋近于 0;而标注正确数据的重趋近于 1。算法在实际情况下通常无法给出完全准确的判断,因此样本权重通常为一定范围内的实数(可能为负,可能大于 1)。权重的指定方法可以根据特定规则设计、基于统计一致性、或依赖(小规模)无噪数据;

  • Redesigning:还可以直接设计对噪声鲁棒的损失函数。常用的交叉熵损失函数在标签噪声情形下表现不佳。然而,满足对称条件的损失函数(下图 8)在一定条件下对噪声鲁棒。相关方法依据信息论、课程学习、以及标签集成等技术来减小优化目标的噪声偏差。

图 8:满足对称条件的损失函数。

具体分类 - 优化

神经网络的记忆特性(Memorization Effect)对于 LNRL 问题有着重要的意义。总的来讲,神经网络模型优先学习语义信息较强的模式,并逐步拟合训练数据中的噪声 [5](下图 9)。该现象表明训练过程中神经网络的预测结果可以帮助噪声标签清洗,通常称为小损耗样本选择:模型「学习」了一个样本或其模式,意味着该数据的损失值较小。因此,在优化过程中仅使用损失值较小的样本(潜在的正确标注数据)对模型进行训练可以有效降低标签噪声的负面影响。

图 9:MNIST 数据集中各种标签噪声下的实验结果。实 / 虚线分别表示训练 / 测试精度曲线。

常见的方法有利用单一模型的自学习方法(Self-Training)以及通过多个模型相互合作的共同学习方法(Co-Training)(下图 10)。
  • Self-Training:训练过程每次迭代都会对训练数据的损失值进行排序,仅对损失值小于给定阈值的样本进行反向梯度传播。此类方法的不足在于,单一模型不能保证被选样本不包含误标注数据,而数据选择的误差会随着模型训练不断累积;

  • Co-Training:共同学习技术是解决 Self-Training 中误差累积的有效技术,使用不同训练策略(例如不同初始化)的多个模型互相帮助对方判别正 / 误样本;

  • Beyond Memorization:一些相关方法探索模型嵌入特征、知识迁移使得模型优化过程更加鲁棒。

图 10:Self-Training(M-Net)和 Co-Training(Co-teaching)对比。

未来工作

数据集:大部分文章通过 MNIST 或 CIFAR-10 上人工生成的噪声数据来验证自己算法是否有效,然而在真实情况下噪声的性质更加复杂。Tong Xiao 等人使用淘宝以及亚马逊的商品数据构建 Clothing1M 数据集,其中的数据标签根据商品的元信息自动获取,超过 40% 的标签有误。LNRL 相关文章近年来广泛使用 Clothing1M 数据集验证新算法在真实场景下的表现,然而实际上很多文章为了刷榜使用了一些 trick,因此这些算法在真实场景下的表现并不完全可信。最近,Lu Jiang 等人发布 web-label noise 数据集,其数据噪声程度可控,因此可以更好地验证新算法在各种噪声规模下的表现。此外已有数据集主要关注图像分类,然而自然语言 / 语音等领域 LNRL 问题也广泛存在。针对相关任务设计噪声标签数据集也是值得考虑的一个问题。

实例相关噪声:已有的理论工作通常会假设噪声的生成过程仅与潜在的真标签有关,而与实例特征本身无关。直观来讲,低质量 / 存在歧义的数据更容易被误标,也就是说标签噪声的生成过程可能与数据特征有关,即。如何对这些情形进行问题建模在 LNRL 领域尚无定论,且在没有合理假设的情况下实例相关标签噪声问题无解。已有工作假设 i. 靠近潜在最优决策边界的样本容易被误标;ii. 数据标签噪声率有上界;iii. 噪声生成过程仅与数据特征的某些模式相关。此外,辅助数据、主动学习、以及先验知识也可以帮助神经网络克服实例相关标签噪声的影响。

数据噪声:还有许多其他相关领域与噪声有关,例如特征噪声以及数据分布噪声。此外,排序问题、相似性问题、对抗学习、图卷积、强化学习中的数据噪声也广泛存在值得探索。值得一提的是,对抗学习的框架下探讨标签噪声问题近年有许多开创性的工作 [6]。

历史发展

标签噪声问题的相关工作可以追溯到 1988 年。线性阈值函数、决策树、感知机等传统机器学习算法在标签噪声问题下均受到关注和研究。起步阶段,人们通常关注二分类问题并假设标签噪声完全随机(与真标签无关)。

2013 年左右,Natarajan 等人提出标签噪声问题风险一致性的相关理论保证;Scott 等人则将随机噪声扩展到类相关情形。这一阶段,研究人员提出大量标签噪声相关的统计学习方法。

2015 年后,人们的关注点逐渐从统计学习方法转移到深度学习领域。LNRL 早期的工作有 Sukhbaatar 等人关于神经网络噪声自适应层的研究,Reed 等人关于软标签和 Bootstrapping 的相关工作,以及 Azadi 等人的组范数正则方法。此后,诸如前向 / 后向矫正、贝叶斯模型、元学习、重加权等方法发展迅速,被广泛地应用于 LNRL 领域的前沿工作。

2018 年,随着人们对神经网络训练行为的研究逐渐深入,利用网络记忆特性的方法取得了巨大的成功。

今天,LNRL 各类方法的研究仍在蓬勃发展,相关技术正在走向成熟。

相关综述
  • 统计学习中的标签噪声鲁棒学习算法 [7]:Classification in the presence of label noise: A survey.

  • 标签噪声学习在图像领域的应用 [8]:Image classification with deep learning in the presence of noisy labels: A survey.

  • 标签噪声学习在医疗问题中的应用 [9]:Deep learning with noisy labels: Exploring techniques and remedies in medical image analysis.

  • 从方法论角度对于标签噪声相关问题的探讨 [10]:Learning from noisy labels with deep neural networks: A survey.

参考文献

[1] Patrini, G., Rozza, A., Krishna Menon, A., Nock, R., & Qu, L. Making deep neural networks robust to label noise: A loss correction approach. In CVPR, 2017. https://arxiv.org/pdf/1609.03683.pdf
[2] Liu, T., & Tao, D. Classification with noisy labels by importance reweighting. IEEE TPAMI, 2015, 38(3), 447-461.https://arxiv.org/pdf/1411.7718.pdf
[3] Yu, X., Liu, T., Gong, M., & Tao, D. Learning with biased complementary labels. In ECCV, 2018. https://arxiv.org/pdf/1711.09535.pdf
[4] Charoenphakdee, N., Lee, J., & Sugiyama, M. On symmetric losses for learning from corrupted labels. In ICML, 2019. PMLR. https://arxiv.org/pdf/1901.09314.pdf
[5]Arpit, D., Jastrzębski, S., Ballas, N., Krueger, D., Bengio, E., Kanwal, M. S., & Lacoste-Julien, S. A closer look at memorization in deep networks. In ICML, 2017. http://proceddings.mlr.press/v70/arpit17a/arpit17a.pdf
[6] Zhang, J., Xu, X., Han, B., Niu, G., Cui, L., Sugiyama, M., & Kankanhalli, M. Attacks which do not kill training make adversarial learning stronger. In ICML, 2020.https://arxiv.org/pdf/2002.11242.pdf 
[7] Frénay, B., & Verleysen, M. Classification in the presence of label noise: a survey. IEEE TNNLS, 25(5), 845869, 2013. https://romisatriawahono.net/lecture/rm/survey/machine%20learning/Frenay%20-%20Classification%20in%20the%20Presence%20of%20Label%20Noise%20-%202014.pdf 
[8] Algan, G., & Ulusoy, I. Image classification with deep learning in the presence of noisy labels: A survey. KBS, 2021. https://arxiv.org/pdf/1912.05170.pdf 
[9] Karimi, D., Dou, H., Warfield, S. K., & Gholipour, A. Deep learning with noisy labels: Exploring techniques and remedies in medical image analysis. MIA, 2020. https://arxiv.org/pdf/1912.02911.pdf 
[10] Song, H., Kim, M., Park. D., & Lee, J. G. Learning from noisy labels with deep neural networks: A survey. 2020. https://arxiv.org/pdf/2007.08199.pdf

作者介绍
  • 韩波:香港浸会大学助理教授,日本理化研究所 RIKEN AIP 访问科学家。

  • 姚权铭:清华大学电子与工程系,助理教授。

  • 刘同亮:悉尼大学助理教授,日本理化研究所 RIKEN AIP 访问科学家。

  • 牛罡:日本理化研究所 RIKEN AIP 终身制科学家。 

  • Ivor W. Tsang:悉尼科技大学教授,澳大利亚人工智能研究所长。

  • James T. Kwok:香港科技大学教授,IEEE Fellow。

  • Masashi Sugiyama:日本理化研究所 RIKEN AIP 所长,东京大学教授。

领域代表作
  • Yao, Q., Yang, H., Han, B., Niu, G., & Kwok, J. Searching to Exploit Memorization Effect in Learning from Corrupted Labels, in ICML, 2020(利用自动化机器学习处理噪声标签的开拓性工作); 

  • Han, B., Yao, Q., Yu, X., Niu, G., Xu, M., Hu, W., & Sugiyama, M. Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels, in NeurIPS, 2018 (NeurIPS 前 1% 高引文章);

  • Han, B., Yao, J., Niu, G., Zhou, M., Tsang, I., Zhang, Y., & Sugiyama, M. Masking: A New Perspective of Noisy Supervision, in NeurIPS, 2018(利用人类认知解决 LNRL 问题的开创性方法);

  • Liu, T., & Tao, D. Classification with Noisy Labels by Importance Reweighting, TPAMI, 2015, 38(3), 447-461 (类相关标签噪声问题的重要工作); 

  • Du Plessis, M. C., Niu, G., & Sugiyama, M. Analysis of learning from positive and unlabeled data, in NeurIPS, 2014 (censoring PU 学习的经典工作)。

理论标签噪声抗噪鲁棒性学习
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

暂无评论
暂无评论~