机器学习社群热文分享 | Confident Learning: 估计数据集标签中的不确定性
麻省理工以及谷歌的研究团队近日发表了一篇名为「Confident Learning: 估计数据集标签中的不确定性」的新研究。以下是该研究的完整摘要分享:学习存在于数据的上下文中,但是置信度概念通常集中在模型预测上,而不是标签质量上。基于修剪噪声数据,计数以估计噪声和对示例进行排序以进行自信训练的原则,Confident Learning(CL)已成为一种用于表征,识别和学习数据集中带有噪音标签的方法。研究人员基于分类噪声过程的假设对 CL 进行概括,以直接估计嘈杂(给定)标签和未损坏(未知)标签之间的联合分布。这种通用的 CL,作为 cleanlab 开源,在合理的条件下证明是一致的,并且在 ImageNet 和 CIFAR 上具有实验性的性能,优于最近的方法,例如 当标签噪声不均匀时,MentorNet 的效率提高 30%或更多。cleanlab 还可以量化本体类别的重叠,并可以通过提供干净的数据进行训练来提高模型的准确性(例如 ResNet)。GitHub 传送门:bit.ly/2oMdfe2