Michael Tschannen等作者Panda编译

基于自编码器的表征学习:如何攻克半监督和无监督学习?

苏黎世联邦理工学院和谷歌大脑团队研究者的 NeurIPS 2018 会议贝叶斯深度学习(Bayesian Deep Learning)研讨会论文《Recent Advances in Autoencoder-Based Representation Learning》系统性地介绍了基于自编码器的表征学习的最新进展。

为了将人工智能应用于从世界收集的大量无标注数据,一大关键难题是要能仅用少量监督或无监督的学习方法来学习有用的表征。尽管在数据上学习到的表征的有用性显然很大程度上取决于其所针对的最终任务,但仍可想见有些表征的性质可同时用于很多真实世界任务。在一篇有关表征学习的开创性论文中,Bengio et al. [1] 提出了这样一组元先验(meta-prior)。这些元先验来自对世界的一般性假设,比如解释性元素的层次化组织形式或解离性(disentanglement)、监督学习的可能性、数据在低维流形上的汇集、可聚类性、时间和空间一致性。

近段时间,研究者们已提出了多种基于自编码思想的(无监督)表征学习算法;这种思想的目标是学习从高维观察到低维表征空间的映射,使得可通过低维的表征(近似地)重建出原来的观察。尽管这些方法有各不相同的目标和设计选择,但我们认为这篇论文介绍的所有方法本质上都隐式或显式地围绕着来自 Bengio et al. [1] 的一个元先验。

鉴于上游表征学习任务本质上的无监督性,表征学习步骤中强制执行的元先验的特性能决定所得到的表征对真实世界最终任务的有用程度。因此,为了强制执行给定的元先验,需要理解哪种模型和哪种通用技术针对哪种元先验是有用的。在这篇论文中,我们提供了一种统一视角,其中包含大多数已提出的模型并给出了它们与 Bengio et al. [1] 中提出的元先验的关系。我们在表 1 中总结了近期在元先验方面的研究工作。

表 1:根据 [1] 中的用于表征学习的元先验分组的方法。尽管很多方法都直接或间接地解决了多个元先验,但我们仅考虑了每种方法中最显著的目标。注意,本质上所有方法都会强制使用低维和流形结构等元先验。

Bengio et al. [1] 的元先验。元先验有关于这个世界的非常通用的前提条件,因此也被认为可用于范围广泛的下游任务。我们简要地总结了我们审阅过的方法所针对的最重要的元先验。

  1. 解离性:假设数据是基于互相独立的因素(这些因素内部也存在一定的变化范围)生成的,比如目标图像中的目标方向和光照条件,作为一个元先验,解离性更倾向于用表征中不同的独立变量表示这些因素。这样应该就能得到数据的简洁的抽象表示,从而可用于各种下游任务并有望提升样本效率。

  2. 解释性因素的层次化组织形式:这一元先验背后的直观知识是这个世界可以被描述为越来越抽象概念的层次结构。比如自然图像可以在不同层次的粒度上根据图中的目标进行抽象的描述。给定目标,可由目标的属性给出更具体的描述。

  3. 监督学习监督学习思想是在监督学习任务和无监督学习任务之间共享表征,这通常会带来协同效应:尽管有标注数据点的数量通常过小,不足以学习得到优良的预测器(也没有优良的表征),但与无监督目标一起联合训练能让监督任务学习到可泛化的表征,同时监督任务还能引导表征学习过程。

  4. 聚类结构:很多真实世界数据集都有多类结构(比如具有不同目标类别的图像),这些结构可能具有各不相同的与类别有关的因素(这些因素内部也存在一定的变化范围)。这种结构可由隐含混合模型学习得到,其中每种混合组分都对应一种类别,并且其分布也能建模该类别之中的因素的变化情况。这能自然地得到具有聚类结构的表征。

平滑度(smoothness)与时间空间的一致性等非常通用的概念并不特定于无监督学习,并且可在大多数实际设置中使用(比如有助于预测器平滑度的权重衰减,以及用于获取图像数据中空间一致性的卷积层。我们将在第 7 节讨论大多数方法使用的隐式监督。

用于强制执行元先验的机制。我们识别出了以下三种强制执行元先验的机制:

  1. 编码分布的正则化(第 3 节)。

  2. 编码和解码分布或模型族的选择(第 4 节)。

  3. 灵活的表征的先验分布的选择(第 5 节)。

比如,编码分布的正则化通常被用于促进使用解离后的表征。另外,以一种层次化的方式分解编码和解码分布让我们可以将层次结构施加到表征上。最终,可使用一种更加灵活的先验(比如一种混合分布)来促进可聚类能力。

图 1:图(a)说明了编码器、解码器和先验分布在隐含(表征/代码)空间上指定的变分自编码器(VAE)框架。编码器是将输入映射到表征空间(推理),而解码器则是根据表征重建原输入。编码器应该满足该隐含空间上的某些结构(比如应该是解离的)。图(b)展示了在 MNIST 数据集上训练后的具有二维隐含空间的自编码器。左图中的每个点都对应于一个数字的表征(原来有 784 个维度),右图是重建出的数字。

可以看到,这个案例中的隐含表征是有聚类的(多种风格的同一数字在 L2 距离上很接近,而在每一组中,位置都对应于数字的旋转)。

在开始我们的概述之前,我们在第 2 节给出了理解变分自编码器(VAE)[25, 26] 所需的主要概念、本论文中考虑过的大多数基础方法以及用于估计概率分布之间的散度的多种技术。然后我们会在第 3 节详细讨论基于正则化的方法,在第 4 节介绍依赖结构化的编码和解码分布的方法,在第 5 节介绍使用结构化先验分布的方法。我们在第 6 节通过概述跨领域表征学习 [27-29] 等相关方法而进行了总结。最后,我们在第 7 节通过 Alemi et al. [30] 的数据率-失真(rate-distortion)框架评判了无监督表征学习并探讨了其意义。

论文:基于自编码器的表征学习近期进展(Recent Advances in Autoencoder-Based Representation Learning)

论文地址:https://arxiv.org/abs/1812.05069

摘要:在很少或没有监督的情况下学习有用的表征是人工智能领域的一大关键挑战。我们以基于自编码器的模型为核心,对表征学习的最新进展进行了深度概述。为了组织这些结果,我们使用了据信对下游任务有用的元先验,比如特征的解离性和层次结构。具体而言,我们揭示了三种强制实现这些属性的主要机制:(1)正则化(近似的或聚合的)后验分布,(2)分解编码和解码分布,(3)引入一个结构化的先验分布。尽管已有一些有希望的结果,但隐式或显式的监督仍然是一个关键推动因素,所有现有方法都使用了较强的归纳偏置且有建模方面的假设前提。最后,我们还通过数据率-失真理论对基于自编码器的表征学习进行了分析,并确定了下游任务相关先验知识可用量与该表征在该任务中的有用程度之间的明确权衡。

表 2:选择了不同正则化方法 和 的研究概述。[5] 中的学习目标是指定的。大多数方法都使用了多变量标准正态分布作为先验(更多详情见附录表 3)。最后一列「Y」表示是否使用了监督:√ 表示需要标签,O 表示标签是可选择使用的(从而实现监督或监督学习)。注意某些正则化算法经过了简化。

图 3:不同正则化算法的示意图概述。大多数方法都侧重于正则化聚合的后验,而在测量先验的分歧的方法各有不同。表 2 提供了更多细节,深度讨论见第 3 节。

图 5:图(a)展示了一个带有层次编码分布和 PixelCNN 解码分布的 VAE 示例,图(b)给出了不同模型所用的分解方法概况。我们表示编码(ENC)和解码(DEC)分布的结构的方式为:H 表示层次,A 表示自回归,(默认)是全连接或卷积的前馈式神经网络。我们表示后验部分的方式为:N 表示多变量标准正态分布,C 表示类别式,M 表示混合分布,G 表示图模型,L 表示学习得到的先验。最后一列「Y」表示是否使用了监督。

图 6:图(a)展示了一个带有多模态连续或离散先验(每个先验都会产生一个不同的模型)的 VAE 示例。图(b)给出了不同模型使用的先验的概况。

图 7:图(a)展示了 [30] 的数据率-失真权衡,其中 D 对应 (β-)VAE 目标中的重建项,R 对应 KL 项。图(b)展示了 [10,9] 中的监督式案例的一个相似的权衡。如图(c)所示,不能反映所学到的表征对未知下游任务的有用程度。 

理论表征学习自编码器NIPSNIPS 2018
3
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~