李宇峰 王海 魏通 涂威威作者

半监督学习也能自动化?南大和第四范式提出Auto-SSL

让机器自己学习如何搞定一个数据集或任务一直是 AutoML 领域所关注的,它可能不再需要手动数据预处理、不需要人工搭建模型架构或花式调参。但是这些任务基本上都是基于图像识别等监督学习,而实际场景中更多的是未标注数据。因此南京大学 lamda 研究组和第四范式的研究者表示自动化也可以蔓延到半监督学习,他们借此提出了一种 Auto-SSL 模型。

模型选择和超参数优化是机器学习技术应用过程中的关键步骤。给定⼀个机器学习任务,人工参与模型选择以及超参数优化通常是⼀个耗时、繁琐的过程。为了解决这样的问题,⼀些关于自动化机器学习的研究工作被提出,比如 Auto-WEKA 、Auto-Sklearn 和 Auto-Keras 等。

另外近几年 NIPS、PAKDD 等会议已经开始举办 AutoML 比赛,这一新兴领域已经获得学术界和工业界的广泛关注。

以往 AutoML 的工作通常侧重于监督学习问题,需要解决包括特征工程、模型选择、和超参数优化等问题。已有的 AutoML 系统已经可以得到不错的模型预测性能。例如,Auto-WEKA 结合了机器学习框架 WEKA,并利用贝叶斯优化方法对新数据集进行模型以及超参数的选择。

Auto-Sklearn 改进了 Auto-WEKA,它使用元学习来初始化学习算法以及超参数,并集成了评估过程中产生的模型,从而得到鲁棒的模型选择结果。另外,谷歌也开发了一套针对图像分类的自动机器学习产品 Cloud AutoML。以上研究表明 AutoML 可以自动地选择一个适合当前任务的监督学习模型以及超参数

然而在⼀些实际的应⽤场景中,获取有标记数据会⾮常困难。例如,在网页分类、医学图像分类等领域中通常只能获得大量的未标记数据以及少量标记数据。因此能利用未标注信息的半监督学习(SSL)在现实应用中普遍存在,但自动化的 SSL 研究仍然有限。在本文工作中,我们主要研究了现有 AutoML 技术无法直接解决的 SSL 问题。

  • 首先,已有的元学习主要从大量有标记数据提取元特征,从而初始化学习算法以及超参数。对于含有大量未标记数据以及少量有标记数据的数据集,提取能刻画数据分布的元特征对于半监督学习算法的选择至关重要。

  • 其次,SSL 在实施过程中可能会出现性能的严重下降,也就是说 SSL 利用了未标记数据以后的模型预测性能还不如仅仅利用有标记数据的监督学习算法。最近一些关于安全半监督的方法已经提出,然而这些研究方法通常侧重学习过程的某一个方面,并没有关注一个自动化的 SSL 解决方案。

为了解决以上问题,本文针对 SSL 提出了自动半监督学习方法(AUTO-SSL)。首先,受到 Auto-Sklearn 的启发,本文使用元学习以快速初始化 SSL 算法。考虑到未标记的数据分布对于 SSL 算法的选择至关重要,本文使用多种无监督聚类算法提取簇内和簇间的统计信息以增强元学习的表现。

其次,本文使用一种大间隔方法,用于微调超参数以缓解 SSL 可能出现的性能降低问题。这种方法的基本思想是,如果某个超参数较好,其在未标记数据上的模型预测结果分类间隔较大。在不同领域的 40 个数据集上,实验结果表明本文提出的方法相比以往的系统有较大的性能提升,包括 AutoML 系统 AUTO-SKLEARN 以及经典 SSL 方法。此外不同于传统的 SSL 方法会出现性能下降的情况,本文提出的方法几乎不会出现这样的情况。

论文:Towards Automated Semi-Supervised Learning

论文地址:http://lamda.nju.edu.cn/liyf/paper/aaai19-autossl.pdf

自动半监督学习定义

 符号表示:给定包含大量未标记数据和少量有标记数据的半监督数据集,其中  表示有标记数据, 表示未标记数据,表示样本的标记。自动半监督学习的目标如下:


定义:给定半监督学习算法  以及每个学习算法  对应的超参数集合基准监督学习算法  以及对应的超参数集合 。假定模型  是自动半监督学习系统(AUTO-SSL)在数据集上得到的训练模型, 是基准监督学习算法在有标记数据  上得到的训练模型。那么 AUTO-SSL 的目标可以表示为: 通常要显著好于 ,最坏情况下,也不会比  差。其中, 表示模型 在未标记数据上的预测性能。

传统元学习和增强元特征

元学习 [Brazdil et al.2008] 旨在利用以往的经验知识来指导新任务的学习,具有学会学习的能力。具体来说,在 AutoML 中,我们收集大量经验数据集的性能数据和其对应的元特征,其中元特征是用来刻画数据集的特征,有助于有效地初始化目标任务上的学习算法 [Feurer et al.2015]。元特征是元学习的核心,传统的元特征主要包括描述数据集基本的结构信息的元特征 (Simple metafeatures)、表示数据集主要成分统计量的 PCA 元特征 (PCA metafeatures )、统计数据的分布情况的统计元特征 (Statistical metafeatures )。详细的传统元特征如下表:

对于 SSL,数据分布信息对于 SSL 算法选择至关重要,例如,基于图的半监督学习算法要求数据具有平滑性假设,即相似的样本具有相同的标记;而半监督支持向量机要求数据具有低密度假设,即半监督支持向量机试图找到能将两类数据分开,且穿过数据低密度区域的划分超平面。本文通过无监督学习算法提取数据的分布信息,详细的聚类算法以及提取的特征如下表所示:

大间隔方法用于超参数优化

 元学习能够有效地给目标任务初始化 SSL 算法,但无法对超参数进行优化。然而,实际的应用场景中,超参数优化虽然可以得到不错的性能调整,但效率低下,通常需要消耗大量的时间。传统的 AutoML 系统通过贝叶斯优化调整超参数,需要大量的标记数据切分验证集并多次进行模型评估,对于 SSL,标记数据通常不足以用来切分验证集进行模型评估。本文提出了一种大间隔的方法来优化超参数,基本思想是,如果某个超参数较好,其在未标记数据上的模型预测结果分类间隔较大,反之亦然。下图给出了大间隔方法用于优化超参数的示例。

实验结果

为了充分考察 AUTO-SSL 在实际场景中的效果,本文在 40 个数据集上同 AUTO-SKLEARN、传统 SSL 方法以及监督学习方法进行了对比实验。其中数据集涵盖了商业、生命科学、物理、社交、金融、计算机等各种不同的应用领域。因为有标记数据数量是影响 SSL 性能的重要因素之一,我们展示了 AUTO-SSL 在多种场景下可以获得同传统 SSL 方法相比更加鲁棒的结果。

5.1AUTO-SSL 与 AUTO-SKLEARN 的比较结果

图 3 给出了在 20 个有标记数据情况下,AUTO-SSL 与 AUTO-SKLEARN 模型预测性能的比较结果,其中绿色部分表示性能的提升量,红色部分表示性能的下降量。可以看出,AUTO-SSL 利用了未标记数据辅助提升模型预测性能,相比仅仅利用标记数据的 AUTO-SKLEARN 在多数情况下会有比较大的性能提升。

5.2AUTO-SSL 与传统 SSL 方法的比较结果 

表 2-3 给出了 40 数据集上 AUTO-SSL 与传统 SSL 方法的详细比较结果,ASSL 表示本文提出的方法。图 4 给出了 AUTO-SSL 和传统 SSL 方法相比基准监督学习方法 SVM 的比较结果,从图中可以看出,传统 SSL 方法存在一些情况下,利用未标记数据以后的模型预测性能不如仅仅利用有标记数据的监督学习方法,而 AUTO-SSL 能够避免这种情况的出现。

5.3 有标记数据数量对结果的影响

图 5 给出了不同有标记数据情况下,AUTO-SSL 与对比方法的平均预测性能。表 4 给出了不同有标记数据情况下,AUTO-SSL 与传统 SSL 方法相比于基准监督学习方法「胜/平/负」的统计情况;其中,「胜/平/负」表示该方法得到的模型预测性能相比基准监督学习方法 SVM 有」显著提升/无显著性/显著下降」。从实验结果可以看出,AUTO-SSL 相比各个比较方法更能够得到鲁棒的模型预测结果。

理论半监督学习南京大学第四范式
2
相关数据
半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

自动化机器学习技术

机器学习最近在许多应用领域取得了长足的进步,这促成了对机器学习系统的不断增长的需求,并希望机器学习系统可以被新手快速地熟悉并使用。相应地,越来越多的商业企业推出产品旨在满足这种需求。这些服务需要解决的核心问题是:在给定数据集上使用哪种机器学习算法、是否以及如何预处理其特征以及如何设置所有超参数。这即是自动化学习(AutoML)企图解决的问题。

推荐文章
暂无评论
暂无评论~