黄圣君作者

主动学习年度进展|VALSE2018

编者按:白居易在《忆江南》中曾写道,

“山寺月中寻桂子,郡亭枕上看潮头。”

诗人结合“月中桂树”的传说,从江南众多景色中,选择了灵隐寺的皎月和钱塘江的潮头,这两处具有代表性的场景来追忆江南。而这两处样本的选择,也体现了诗人对江南风光的充分理解。

其实,在机器学习任务中,由于数据标注代价高昂,我们也面临着如何以最少量的样本,来获得最有效学习模型的问题。 如果能够从任务出发,通过对任务的理解来制定标准,挑选最重要的样本,使其最有助于模型的学习过程,将大大减少监督学习的成本。

因此,学术界衍生出了主动学习这一研究方向。本文中,来自南京航空航天大学的黄圣君副教授,将为大家介绍主动学习领域的年度进展。

文末,大讲堂提供文中所提到参考文献的下载链接。


本次报告的题目是《recent progress on active learning 》,我们知道对于监督学习任务,要训练好模型,一般有标记的训练数据越多越好,但很多任务里面有标记的数据非常稀少,而且标注过程往往需要专业的知识,耗时耗力,导致代价昂贵。所以我们希望用更少的标注数据,训练出更好的模型。

主动学习就是解决这个问题的重要手段。虽然有标记数据很少,但可以廉价获得非常多未标注的数据。在主动学习里有一个标注专家,我们可以迭代地从未标注数据里面挑选出一部分重要数据去标注,从而获得更多有标记数据。所以主动学习的目标是希望用最小标注代价获得最好的学习模型。

主动学习里面最核心的问题就是需要制定标准,使得挑选出来的样本确实是对模型最有帮助的。

这个问题在过去几十年间,一直是主动学习这个方向研究最关注的一点。以往的方法大概可分为这两类:一类方法,倾向于选择最有信息的样本,例如,我去教你最不会的东西应该是对你最有帮助。另外一类方法,是倾向选择最有代表性的样本,希望选择的样本涵盖数据整体分布的信息。

最近还有很多工作依然在关注选择标准的制定上,但是我个人感觉这一年来在主动学习方面的进展,开始倾向于考虑更实际的应用场景,而且更系统的考虑整个学习过程中各个环节。这主要体现在三个方面:

第一个是更多的关注oracle不可靠的情况,比如Oracle提供的是含噪声、弱监督的信息。

第二个是更多的关注代价敏感性,考虑每次查询中标注代价的差异,而不仅仅追求减少查询次数。

第三个方面是更多的关注模型依赖的主动学习方法。比如深度学习等一些更复杂的模型可能会对主动学习产生新的要求。

我分别会从三个方面介绍代表性工作。首先是弱监督方面,这是今年的一个工作,作者考虑的不是一个oracle而是一批oracle,但是每个oracle提供的信息可能都是含噪声的。这个方法希望准确评估每个oracle提供的标注质量,并且希望能够得到对噪声鲁棒的分类器。实验证明这个效果还是不错的,对不同程度的噪声都是鲁棒的。

这个工作是考虑到另外一种情况,他有两个oracle,一个oracle是去提供样本标记,另一个oracle是针对两个样本,告诉你这两个样本里哪个更可能是正样本。他提供这样一种比较的信息,所以也是一种弱监督的信息。这个工作的主要贡献是在不同噪声条件下提供关于查询复杂度的理论保证。

这个工作是从另外一个角度考虑的,用一个模型去预测一个样本,如果置信度很低,那就向oracle去查询这个样本的标记信息,如果置信度很高,就直接把当前模型的预测作为标记来用。所以他是结合模型自身的预测信息和oracle的信息来帮助提高学习效果。结果表明,这个方法效果明显,只要查询40%的样本就可以达到传统方法用所有数据达到的效果。

这个工作考虑的是极端情况,某些任务里面连oracle都没有,比如涉及到敏感信息或者安全信息,或者任务要求领域知识非常强,这时候没有Oracle能够提供更多标注。所以我们希望从相关任务里去查询新的样本,把这个样本迁移过来学习,从而帮助目标任务的学习。这个工作的挑战在于,如果把主动学习迁移学习两个任务独立考虑,有可能挑出来的样本对source domain有帮助,但迁移过来之后对target domain并没有帮助,这就是挑战所在,这工作是基于2016年IJCAI的一个类似工作扩展来的,只是把source domain由一个扩展到多个的情况。

第二方面,考虑代价敏感性的主动学习也有不少工作。首先考虑的是标注者(Oracle)本身是代价敏感的,例如有很多标注者,但是每个标注者要价是不一样的。像有一个成年专家和小孩,一般来说成年专家要价更高一些。但如果考虑标注这样一个图片,如果要看图片里面动画人物是谁,小孩可能标注更准一些。所以在这样场景下可以获得性价比更高的标注,可以用更低的价格获得更准确的标注。这个工作就是在挑选样本的同时去挑选最适合标注该样本的标注者。

另外一个是标记本身也是有代价敏感的。比如在多标记任务里,多个标记可能形成这样层次化的结构,越底层的标记描述信息越具体。但是oracle在标注的时候需要花费更多的时间,所以需要有一种方法平衡信息量和标注代价之间的矛盾。这个工作采取的是多目标优化方法来平衡,而且取得很好效果。

此外,学习任务本身也是代价敏感的,这个敏感体现在把某一类样本错分到另外一类上,所付出的代价可能是不一样的。所以这个工作考虑的是这种情况,它每次查询不再是某一个样本的标记,而是去查询这个样本如果被分成某一个类别所付出的代价会是多少。这个工作除了在实验上取得好的效果之外,在理论上也证明如果噪声条件不是很强的情况下,可以显著降低标记复杂度。

最后一方面,随着学习模型变得越来越复杂,会不会对主动学习提出新的要求?这个工作是我们最近提出来的工作,它所考虑的是,虽然深度神经网络在很多方面都取得了成功,但是当去解决新的任务的时候,需要丰富的经验去设计网络结构,调参数,需要很多的训练数据去训练它。我们希望用一些已经预训练好的模型,在这个模型上用很少的训练数据,把它从预训练的任务上迁移过来,在新的任务上也取得很好的效果。以往的主动学习往往关注的是挑出来的样本是对于提升分类效果最有帮助的,但是深度学习大家都知道它的非常强大能力在于学习出好的特征表示。所以我们定义了一个新的指标distinctiveness,这个指标衡量的是一个样本,在提升深度神经网络特征学习能力方面的作用大小,这是跟以往主动学习所不一样的。从实验结果中可以看到,通过基于distinctiveness的主动选择,在很多模型上用很少数据就可以将预训练好的深度神经网络模型迁移到一个新的任务上并得到很好的效果。

最后一个工作是基于生成模型。原来的主动学习方法都是从未标记数据中挑出来部分样本去标注,这里不再是从一堆数据里去挑选,而是生成一批这样的样本。首先,在decision boundary上面产生很多等分点,每个点对应一个样本,这就是生成的一系列样本。然后让oracle去标注的不是每个样本属于哪个类别,而是这些样本里面,例如,这是鞋子这是包,oracle会标注这些样本里区分这两个类别的临界点在哪里。所以这种方法跟以往所有的主动学习方法思路完全不一样,他让oracle标注的是直接提供一个分类器应该所处的位置,所以具有更强的信息,因此也取得不错的效果。

除此以外还有很多用主动学习解决不同应用问题的研究,这里不再一一介绍。以上就是对过去一年主动学习方面新出现的三个趋势的简单介绍和总结,谢谢大家。

参考文献链接: 

链接: https://pan.baidu.com/s/1pY4rDMSPzbJjliz1iYqW0A 

密码: aa5g

入门主动学习
相关数据
主动学习技术
Active learning

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

深度神经网络技术
Deep neural network

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

生成模型技术
Generative Model

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术
parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

查询技术
Query

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

迁移学习技术
Transfer learning

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度学习大讲堂
深度学习大讲堂

机器之心编辑

深度学习大讲堂
深度学习大讲堂

高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息。

推荐文章
返回顶部