魔王机器之心编译

清华张长水等人30页少样本学习综述论文,涵盖400+参考文献

这篇综述文章回顾了少样本学习(FSL)的演进历史和当前进展,对 FSL 方法进行了层次分类,并总结了近期多个 FSL 扩展性主题及其最新进展,介绍了 FSL 在计算机视觉、自然语言处理等领域中的应用。

少样本学习(FSL)是机器学习领域中重要且有难度的课题。基于少量样本进行学习和泛化的能力是区分人工智能和人类智能的重要分界线,因为人类往往能够基于一个或少量样本建立对新事物的认知,而机器学习算法通常需要数百或数千个监督样本才能实现泛化。


少样本学习的研究可以追溯到 21 世纪初,近年来随着深度学习技术的发展它也受到广泛的关注,但是目前关于 FSL 的综述文章较少。清华大学教授、IEEE Fellow 张长水等人广泛阅读和总结了自 21 世纪初到 2019 年的 300 余篇论文,写了一篇关于 FSL 的综述文章

 论文链接:https://arxiv.org/pdf/2009.02653.pdf

这篇综述文章回顾了 FSL 的演进历史和当前进展,将 FSL 方法分为基于生成模型和基于判别模型两大类,并重点介绍了基于元学习的 FSL 方法。

此外,本文还总结了近期出现的多个 FSL 扩展性主题及其最新进展,并介绍了 FSL 在计算机视觉自然语言处理、音频、强化学习和机器人学、数据分析等热点研究领域中的应用。

最后,本文讨论了 FSL 的未来趋势,希望能为后续研究提供指引。

该综述文章的新颖之处和主要贡献包括:

  1. 对自 21 世纪初至 2019 年的 300 余篇 FSL 主题论文进行了更加全面及时的综述,涵盖从早期 Congealing 模型 [29] 到近期元学习方法的所有 FSL 方法。详尽的阐述有利于掌握 FSL 的整体发展脉络,构建 FSL 的完整知识结构体系。

  2. 该论文提供了易于理解的层次分类,根据建模原则将现有的 FSL 方法分为基于生成模型的方法和基于判别模型的方法。在每一个类别中,又基于泛化性进行细分。

  3. 该论文重点介绍目前主流的 FSL 方法,即基于元学习的 FSL 方法,并将其分为五个大类:Learn-to-Measure、Learn-to-Finetune、Learn-to-Parameterize、Learn-to-Adjust 和 Learn-to-Remember。此外,该综述文章还揭示了多种元学习 FSL 方法之间的底层发展关系。

  4. 该论文在原版 FSL 之外,还总结了近期出现的多个扩展性研究主题及其进展。这些主题包括:半监督 FSL、无监督 FSL、跨域 FSL、通用 FSL 和多模态 FSL,它们很有挑战性,且为解决方案赋予了实际意义,可用于许多现实机器学习问题。而之前的综述文章很少涉及这类扩展性主题。

  5. 该论文广泛地总结了现有 FSL 方法在多个领域的应用,如计算机视觉自然语言处理、音频、强化学习和机器人学、数据分析等,还概括了当前 FSL 方法在基准数据集上的性能,以为后续研究提供指引。


文章结构

  • 第二章:概述 FSL 发展历史、符号和定义,以及对现有 FSL 方法进行分类;

  • 第三章:介绍第一类 FSL 方法——基于生成模型的方法;

  • 第四章:介绍第二类 FSL 方法——基于判别模型的方法;

  • 第五章:总结 FSL 的多个扩展性主题;

  • 第六章:介绍 FSL 在多个领域中的应用,及基准性能;

  • 第七章:探讨 FSL 的未来方向。

下图 1 展示了该综述文章的主要内容,包括 FSL 的发展过程、方法分类、扩展性主题和应用。

这篇综述文章篇幅较长,共有 30 页内容,参考文献多达 414 篇。我们仅选取部分概括性的图表进行展示,详情参见原论文。

基于生成模型的 FSL 方法

下表 1 总结了第一类 FSL 方法——基于生成模型的 FSL 方法:

基于判别模型的 FSL 方法

本文将基于判别模型的 FSL 方法分为四类:增强、度量学习元学习和其他方法,并重点介绍了元学习方法。

下图 2 概括了基于增强的 FSL 方法的通用框架:

下表 2 则总结了监督式和无监督式增强方法:

下图 8 展示了基于度量学习的 FSL 方法的通用框架:

下表 3 则总结了基于度量学习的 FSL 方法的主要特征:


元学习

下图 12 展示了基于元学习的 FSL 方法的通用框架:

此外,这部分还介绍了基于元学习的 FSL 方法的五个子类别:Learn-to-Measure (L2M)、Learn-to-Finetune (L2F)、Learn-to-Parameterize (L2P)、Learn-to-Adjust (L2A) 和 Learn-to-Remember (L2R)。

下图 13 展示了不同 L2M 方法之间的发展关系:


许多近期提出的 Learn-to-Finetune 方法属于 MAML 变体,下图 16 展示了 MAML 与其变体之间的关系:

下表 4 总结了 Learnto-Parameterize 方法:

下表 5 总结了 Learn-to-Adjust 方法:

下图 22 展示了 Learn-to-Remember 方法的通用框架:

FSL 方法的应用领域

下表 9 总结了 FSL 方法在计算机视觉自然语言处理、音频、强化学习和机器人学、数据分析等领域的应用:

理论少样本学习
1
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

判别模型技术

在机器学习领域,有一种分类方法将模型分为判别模型和生成模型(generative model)两种。 判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,是一种基于概率理论的方法。已知输入变量x,判别模型通过构建条件概率P(y|x)分布预测结果,或试图直接从输入x的空间学习映射到标签{0,1}(如感知器算法)的函数。生成模型则是考虑x与y之间的联合分布。 在实际应用中判别模型非常常见,如:逻辑回归(logistic regression),支持向量机(support vector machine), 提升方法(Boosting),条件随机场(conditional random fields),神经网络(neural network),随机森林(random forests)典型的生成模型则包括:高斯混合模型(Gaussian Mixture Model),隐马尔科夫模型(hidden markov model),简单贝叶斯(naive Bayes)等。不难看出两者的区别。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

度量学习技术

即学习一个度量空间,在该空间中的学习异常高效,这种方法多用于小样本分类。直观来看,如果我们的目标是从少量样本图像中学习,那么一个简单的方法就是对比你想进行分类的图像和已有的样本图像。但是,正如你可能想到的那样,在像素空间里进行图像对比的效果并不好。不过,你可以训练一个 Siamese 网络或在学习的度量空间里进行图像对比。与前一个方法类似,元学习通过梯度下降(或者其他神经网络优化器)来进行,而学习者对应对比机制,即在元学习度量空间里对比最近邻。这些方法用于小样本分类时效果很好,不过度量学习方法的效果尚未在回归或强化学习等其他元学习领域中验证。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~