目前推广应用的机器学习方法或模型主要解决分类问题,即给定一组数据(文本、图像、视频等),判断数据类别或将同类数据归类等,训练过程依赖于已标注类别的训练数据集。在实验条件下,这些方法或模型可以通过大规模的训练集获得较好的处理效果。然而在应用场景下,能够得到的数据实际上都没有进行人工标注处理,对这些数据进行类别标注所耗费的人力成本和时间成本非常巨大。在一些专门的应用领域,例如医学图像处理,只有专门学科的专业医生能够完成对医学影像图像的数据标注。显然,在这种情况下必须依赖大规模训练集才能使用的方法或模型都不再适用。为了减少对已标注数据的依赖,研究人员提出了主动学习(Active Learning)方法。主动学习通过某种策略找到未进行类别标注的样本数据中最有价值的数据,交由专家进行人工标注后,将标注数据及其类别标签纳入到训练集中迭代优化分类模型,改进模型的处理效果。
根据最有价值样本数据的获取方式区分,当前主动学习方法主要包括基于池的查询获取方法(query-acquiring/pool-based)和查询合成方法(query-synthesizing)两种。近年来提出的主动学习主要都是查询获取方法,即通过设计查询策略(抽样规则)来选择最具有价值信息的样本数据。与查询获取方法「选择(select)」样本的处理方式不同,查询合成方法「生成(generate)」样本。查询合成方法利用生成模型,例如生成式对抗网络(GAN, Generative Adversarial Networks)等,直接生成样本数据用于模型训练。
我们从 2019 年机器学习会议中选出三篇关于主动学习方法的文章进行针对性的分析,这三篇文章为:
Learning loss for active learning(CVPR 2019,oral)
Variational Adversarial Active Learning (ICCV 2019,oral)
Bayesian Generative Active Deep Learning (ICML 2019)
其中,前两篇提出基于池的查询获取方法:《Learning loss for active learning》通过添加损失函数设计一种任务不可知的主动学习方法,《Variational Adversarial Active Learning》设计了一种利用 VAE 和对抗网络来学习潜在空间中已标注数据分布情况的查询策略。第三篇 ICML 的文章《Bayesian Generative Active Deep Learning》介绍了一种利用对抗性网络的查询合成方法。
1. Learning Loss for Active Learning(CVPR 2019)
原文地址:https://arxiv.org/abs/1905.03677?context=cs.CV
主动学习的一个研究热点为抽样策略(准则)的设计,即通过改进样本不确定性度量方式、引入委员会投票模式、采用期望误差以及考虑多样性准则等方法,设计主动学习的抽样策略(准则)。然而,由于不同的机器学习任务不同,使用的数据特征不同等问题,抽样策略(准则)一般是针对目标任务进行设计,不具备普适性,例如在某一类机器学习任务中效果好的模型(例如文本分析),直接应用在其它任务中效果很差(例如图像分类)。
来自韩国 KAIST 的两位学者提出了一种新的主动学习方法:学习损失函数的主动学习模型(Learning Loss for Active Learning)。本文的思路主要来源于深度学习,即不管任务是什么、任务量有多大以及任务的体系结构有多么复杂,学习目的就是最小化损失函数而与具体任务无关。本文提出的主动学习方法引入一个「损失预测模块」,通过学习损失预测模块来估计未标注数据的损失值。无论目标任务是什么,模型都执行同样的损失函数优化,因此损失预测模块是任务不可知的,该方法可以应用于任何使用深度网络的机器学习。
本文贡献包括:
提出了一种简单而有效的主动学习方法,该方法具有损失预测模块,可直接应用于深度网络的任何任务。
利用现有的网络体系结构,通过分类、回归和混合三个学习任务来评估所提出的方法。