NeurIPS 2019 | 一种对噪音标注鲁棒的基于信息论的损失函数

本文是第三十三届神经信息处理系统大会(NeurIPS 2019)入选论文《L_DMI:一种对噪音标注鲁棒的基于信息论损失函数(L_DMI: A Novel Information-theoretic Loss Function for Training Deep Nets Robust to Label Noise)》的解读。该论文由北京大学前沿计算研究中心助理教授孔雨晴博士和北京大学数字视频编解码技术国家工程实验室教授、前沿计算研究中心副主任王亦洲共同指导,由 2016 级图灵班本科生许逸伦、曹芃(共同一作)合作完成。

  • 论文链接:https://arxiv.org/abs/1909.03388

  • 代码链接:https://github.com/Newbeeer/L_DMI

简介

噪音标注(noisy label)是机器学习领域的一个热门话题,这是因为标注大规模的数据集往往费时费力,尽管在众包平台上获取数据更加快捷,但是获得的标注往往是有噪音的,直接在这样的数据集上训练会损害模型的性能。许多之前处理噪音标注的工作仅仅对特定的噪音模式(noise pattern)鲁棒,或者需要额外的先验信息,比如需要事先对噪音转移矩阵(noise transition matrix)有较好的估计。我们提出了一种新的损失函数,它是基于一种新的互信息,DMI(Determinant based Mutual Information)设计的。DMI 是一种对香农互信息(Shannon Mutual Information)的推广,它不仅像香农互信息一样满足信息单调性(information-monotone),还满足相对不变性(relatively-invariant)等性质。是首个不仅对噪音模式没有限制,并且能够无需先验信息而直接应用到任何现存的用于分类的神经网络中的损失函数。实际上,当噪音满足条件独立(conditional independence)假设时,即噪音标签和具体数据条件独立时,我们有下列等式成立:

这意味着,理论上,用作为损失函数噪音标注上训练分类器和在正确标注(clean label)上训练分类器没有区别。

之前,人们使用的损失函数仅仅对特定的噪音模式鲁棒。原因之一,是它们往往都是基于距离的(distance-based),比如 cross entropy loss,0-1 loss,MAE loss 等等,也就是说,这些损失函数定义的是分类器的输出和标签之间的一种距离。因此,如果标注者对某一分类具有很强的倾向,比如一个能力较低的标注者在标注医疗数据时,因为他知道大部分数据是良性的,所以他把所有良性的数据都标成了良性的,并且把 90% 的恶性的数据也标成了良性的。这样,我们收集到的标签就极其倾斜于良性这个分类,也就是有了对角线不主导(diagonally non-dominant)的噪音模式。在这种情况下,如果使用基于距离的损失函数,那么一个把所有数据都分类到良性的分类器就会比一个把所有数据都分类到真实标签的分类器有更小的损失函数值。

而不同于那些基于距离的损失函数,我们使用的是基于信息论损失函数(information-theoretic loss function),即我们希望输出和标签之间有最高的互信息的分类器具有最低的损失函数值。这样,那个把所有数据都分类到良性的分类器由于和标签的互信息为零,就会有很高的损失函数值而被淘汰。但仅这一点是不够的,实际上我们希望的是找到一个信息测度 I,满足下列性质:

也就是说,这个信息测度在噪音标注(noisy label)上对分类器的序应该与其在正确标注(clean label)上对分类器的序相同。然而,香农的互信息不满足以上性质。

本文方法

我们使用了基于两个离散随机变量的联合分布矩阵的行列式的互信息 DMI[1]。它不仅保留有香农互信息的一些性质,还能够满足我们需要的上述性质。它的正式定义为:

定义:(基于行列式的互信息)给定两个离散随机变量 W_1,W_2,我们定义 W_1,W_2 间基于行列式的互信息(Determinant based mutual information)如下:

其中,是 W_1,W_2 联合分布的矩阵表示。

即 DMI 可以看成是两个取值范围相同的离散随机变量的联合分布矩阵的行列式的绝对值。

DMI 之所以满足上述性质,是因为如下定理 [1]:

定理(DMI 的性质):DMI 非负,对称并且满足信息单调性。此外,它满足相对不变性:对于任意的随机变量 W_1,W_2,W_3,当 W_3 与 W_2 关于 W_1 条件独立,那么有:

其中,

由于实际中变化的只有分类器的输出 W_2, 因此矩阵 T 是固定的。DMI 的这种代数结构使得我们能够在噪声信道 (T) 固定的情况下,分别衡量分类器输出 W_2 与信道输入 W_1、信道输出 W_3 的 DMI。由于 T 固定,因此 DMI 自然满足上文提到的分类器的序的性质。我们在论文的主定理中证明了这个代数结构使得 DMI 所对应的损失函数能够对噪声鲁棒。

基于 DMI,我们定义了的一种易于优化 DMI 的损失函数 :

其中,是 h(X) 和的联合分布;的 C×C 的矩阵形式。h(X) 的的随机性来自于 h 和随机变量 X。

即分类器的输出 h(X) 与噪音标注之间的 -log-DMI。在实际中,DMI 可以通过矩阵乘积快速计算,如下图所示:

在数据 X 和噪音标注在真实标签 Y 的条件下相互独立和噪音转移矩阵满秩条件下,由上面定理的结论,我们在文章的主定理中证明了 是合理的(legal)、噪音鲁棒的(noise-robust)和信息单调的(information-monotone)。其中噪音鲁棒这一重要性质能够使得我们用作为损失函数时,在带噪音标签和在不带噪音的标签的数据集上训练得到的最优分类器相同,也满足文首所提的性质。

实验结果

我们的方法在人工合成的数据集上和真实的数据集(Clothing 1M)上都取得了 state-of-the-art 的结果,并且在对角线不主导(diagonally non-dominant)的噪声模式(noise pattern)中优势明显。

参考文献:[1] Y. Kong, "Dominantly Truthful Multi-task Peer Prediction with a Constant Number of Tasks," to appear in SODA, 2020.

入门北京大学损失函数NeurIPS 2019
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

暂无评论
暂无评论~