王晋东作者

当前最好的非深度迁移学习方法:流形空间下的分布对齐

本文即将发表在国际顶级会议 ACM Multimedia conference 2018 上,被评为 ORAL,而且是 Top 10 Paper。论文提出了一个叫 MEDA (Manifold Embedded Distribution Alignment) 的方法进行迁移学习,取得了对比当前众多最新的深度和非深度方法的最好结果。

我们系统性地解决了如何定量估计边缘分布和条件分布在迁移学习中的重要性的问题,这也是当前所有文章没有考虑过的。我们的方法是首次完成这个估计。

■ 论文 | Visual Domain Adaptation with Manifold Embedded Distribution Alignment

■ 链接 | https://www.paperweekly.site/papers/2123

■ 源码 | http://transferlearning.xyz/

主要思路

我们提出通过自适应的分布适配的方式,来减小流形空间中的特征之间的距离,最终构建一个分类器 f。现有的工作通常都只是在原始的数据空间中学习此分类器 f,然而由于原始空间下的特征往往存在扭曲,因而会使得学习结果出现欠适配。根据流形假设,嵌入在流形空间中的点和它们的邻居通常都有着相似的性质。因此,我们提出流形特征变换,以此来减小域之间的数据漂移;然后进行自适应的分布适配,最后学习分类器 f。

流形特征变换之后,我们在结构风险最小化的框架下,通过自适应的分布适配来学习分类器 f。考虑到 Ds 和 Dt 之间不同的数据分布,即,我们需要适配此二者的分布,以此来确保在 Ds 上学习到的知识能够成功地被迁移到 Dt 上。特别地,我们提出动态衡量边缘分布和条件分布重要性,以此来进行自适应的分布适配。最后,分类器 f 可以被很好地学习到。

可以用下面的图进行表示。

流形特征变换

由于在流形空间中的特征通常都有着很好的几何性质,可以避免特征扭曲,因此我们首先将原始空间下的特征变换到流形空间中。在众多已知的流形中,Grassmann 流形 G (d) 可以通过将原始的 d 维子空间(特征向量)看作它基础的元素,从而可以帮助学习分类器。

在 Grassmann 流形中,特征变换和分布适配通常都有着有效的数值形式,因此在迁移学习问题中可以被很高效地表示和求解。因此,利用Grassmann流形空间中来进行分类器 f 的学习是可行的。

现存有很多方法可以将原始特征变换到流形空间,在现存的这些方法中,我们选择测地线流式核方法(Geodesic Flow Kernel, GFK)来集成进MEDA 方法中,完成流形特征变换,因为 GFK 有着很好的计算高效性。GFK 的细节可以在它的原始文献中找到,我们下面介绍它的基本思想。

在学习流形特征变换时,MEDA 试图用 d 维子空间来对数据领域进行建模,然后将这些子空间嵌入到流形 G 中。用 Ss 和 St 分别表示源域和目标域经过主成分分析(PCA)之后的子空间,则 G 可以视为所有的 d 维子空间的集合。每一个 d 维的原始子空间都可以被看作 G 上的一个点。因此,在两点之间的测地线 {Φ(t):0≤t≤1} 可以在两个子空间之间构成一条路径。

如果我们令 Ss=Φ(0) ,St=Φ(1) ,则寻找一条从 Φ(0) 到 Φ(1) 的测地线就等同于将原始的特征变换到一个无穷维度的空间中,最终减小域之间的漂移现象。这种方法可以被看作是一种从 Φ(0) 到 Φ(1) 的增量式"行走"方法。特别地,流形空间中的特征可以被表示为 z=Φ(t)Tx 。从文献中可以知道,变换后的特征 zi 和 zj 的内积定义了一个半正定(positive semidefinite)的测地线流式核(GFK)。

因此,通过,在原始空间中的特征就可以被变换到 Grassmann 流形空间中。核 G 可以通过矩阵奇异值分解来有效地计算。然后,我们将会进行自适应分布适配,最终在 Grassmann 流形空间中学习一个域不变的分类器 f,以此来极大地减小域之间的漂移。

动态分布对齐

现存的分布适配方法通常假定边缘分布 (P) 和条件分布 (Q) 是同等重要的。然而,这种假设并不成立。例如,当源域和目标域数据本身存在较大的差异性时,边缘分布适配更重要;当源域和目标域数据集有较高的相似性时,条件概率分布适配更加重要。

因此,我们需要能够动态衡量 P 和 Q 的不同作用,而不是简单地对它们以同样的权重相加。为了达到这个目的,我们引入一个自适应因子来自适应地条件这两种分布的重要性。用形式化的语言来讲,自适应的分布适配可以被表示为:

其中,μ∈[0,1] 表示自适应因子,c∈{1,⋯,C} 是类别指示。Df(Ps,Pt) 表示边缘分布适配,表示对类别 c 的条件分布适配。

当 μ→0,这表示源域和目标域数据本身存在较大的差异性,因此,边缘分布适配更重要;当 μ→1 时,这表示源域和目标域数据集有较高的相似性,因此,条件概率分布适配更加重要。当 μ=0.5 时,表示将边缘分布和条件分布适配同等看待,这也是目前流行的方法的核心工作。因此,这些现有方法可能被看作是 MEDA 方法的特例。通过学习最优的自适应因子,MEDA 可以被应用于不同的迁移学习任务中。

另外,由于目标域数据 Dt 没有标签,直接评价目标域的条件概率分布 Qt=Qt(yt|zt) 是不可行的。所以我们用类条件概率 Qt(zt|yt) 秋近似 Qt,因为当样本个数足够大时,Qt(zt|yt) 和 Qt 有着很好的相似性。

为了近似 Qt(zt|yt),我们在源域 Ds 上训练一个弱分类器,然后用此弱分类器到 Dt 上进行预测,得到目标域的伪标记。这些伪标记的置信度可能不高,因此我们迭代式地修正预测结果。注意到,我们仅仅在第一轮的迭代中使用了分类器。在第一轮之后,MEDA 使用它先前的结果,自动地修正目标域 Dt 的标签。

我们用最大均值差异(Maximum Mean Discrepancy, MMD)来计算两个概率分布之间的差异性。MMD 是一种非参数化的分布估计方法,已经被广泛地应用于多种迁移学习方法。

两个概率分布 p 和 q 之间的 MMD 距离被定义为,其中 HK 是由特征映射 ϕ(⋅) 所张成的再生核希尔伯特空间(reproducing kernel Hilbert space, RKHS), E[⋅] 表示嵌入样本的均值。

为了使得 MMD 与分类器 f 保持一致性,我们采用映射的 MMD 距离(projected MMD),对我们问题中的边缘分布差异按如下方式计算:

同理,条件分布差异可以被表示为:

然后,自适应分布适配可以被表示为:

值得注意的是,从技术角度上说,自适应因子 μ 并不是一个自由参数,它必须根据数据的分布来进行设定。我们在这里提供一个简单的思路和近似地估计 μ。

我们采用 A-distance 来估计不同分布之间的距离。A-distance 被定义为建立一个线性分类器来区分两个数据领域的 hinge 损失(也就是进行二类分类的 hinge 损失)。

对于边缘分布差异,我们直接计算 Ds,Dt 之间的 A-distance,将得到的结果记为 AM;对于条件分布差异,我们首先对目标域聚类成 C 个类,然后,对于两个域中来自同一个类别的数据,我们计算它们的 A-distance。我们记 AC 为所有类别之间 A-distance的 平均值。然后,自适应因子 μ 可以被估计为

这是首次对两种分布的精确估计!

学习 f 的过程不再赘述。看 paper 即可。

实验

精度

我们的方法在 Office31、Office+Caltech10、MNIST、USPS、ImageNet、VOC2007 上都取得了当前最好的效果。我们的对比方法包括了传统方法,一直到 CVPR 2017、PAMI 2017、AAAI 2018; 深度方法包括 DDC、DAN、RevGrad 等流行方法。具体实验步骤可以看文章。下面是实验结果:

对μ的估计

我们的方法是首次成功估计 μ 的!为了对比估计的精度,我们对 μ 进行了从 0 到 1,间隔 0.1 的遍历,以此为近似的最优的 μ。下面是我们的估计结果和遍历结果对比。可以清楚地看到,我们估计的 μ 整体上和遍历结果并没有太大差异,并且还可能在精度上超过它!因为遍历的结果只是 0.1 为区间,我们可以精确地进行计算。

这个方法具有划时代意义,因为我们现在可以精确地知道哪部分分布更重要!

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

入门迁移学习
6
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

希尔伯特空间技术

在数学里,希尔伯特空间即完备的内积空间,也就是说一个带有内积的完备向量空间。是有限维欧几里得空间的一个推广,使之不局限于实数的情形和有限的维数,但又不失完备性。与欧几里得空间相仿,希尔伯特空间也是一个内积空间,其上有距离和角的概念。

结构风险最小化技术

结构风险最小化(SRM)是机器学习中会使用到的一个归纳原理。 通常在机器学习中,必须从有限的数据集合中选择一个广义模型,随之而来的是过度拟合的问题 - 一个过于强调适应训练集的特殊性,并且不能很好地归纳新的数据的模型。 SRM原则通过平衡模型的复杂性与其在拟合训练数据方面的成功率来解决这个问题。用于平衡以下两个目标: 期望构建最具预测性的模型(例如损失最低)。 期望使模型尽可能简单(例如强大的正则化)。 例如,旨在将基于训练集的损失和正则化降至最低的模型函数就是一种结构风险最小化算法。

奇异值分解技术

类似于特征分解将矩阵分解成特征向量和特征值,奇异值分解(singular value decomposition, SVD)将矩阵分解为奇异向量(singular vector)和奇异值(singular value)。通过分解矩阵,我们可以发现矩阵表示成数组元素时不明显的函数性质。而相比较特征分解,奇异值分解有着更为广泛的应用,这是因为每个实数矩阵都有一个奇异值分解,但未必都有特征分解。例如,非方阵型矩阵没有特征分解,这时只能使用奇异值分解。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

主成分分析技术

在多元统计分析中,主成分分析(Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

条件概率分布技术

条件概率分布(Conditional Probability Distribution,或者条件分布,Conditional Distribution )是现代概率论中的概念。 已知两个相关的随机变量X 和Y,随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x之时,Y 的概率分布。

再生核希尔伯特空间技术

在功能分析(数学分支)中,再生核希尔伯特空间(RKHS)是点估算是连续线性泛函的函数的希尔伯特空间。

推荐文章
暂无评论
暂无评论~