乾树 路编译

基于学习的多任务框架L2MT,为多任务问题选择最优模型

近日,来自香港科技大学和腾讯 AI Lab 的研究者提出一种新型框架 L2MT(learning to multitask),用基于学习的方法为多任务问题选择最优模型。

多任务学习旨在利用多个任务中包含的有用信息来帮助提高这些任务的泛化性能。最近几十年诞生了众多多任务模型。根据最近的一项调查 [34],这些模型可以分为两大类:基于特征的方法和基于参数的方法。基于特征的方法用数据特征作为媒介,在所有任务中共享知识,通常会学习所有任务的共同特征表示。这种方法可以进一步分为两类:浅层共享 [2, 9] 和深层共享 [23]。不同于基于特征的方法,基于参数的方法通过使用正则化项或贝叶斯先验处理模型参数来实现不同任务之间的知识迁移,从而连接不同任务。该方法可以细分为五类:低秩法、任务聚类法、任务关系学习法、脏方法和多层法。

多任务模型如此之多,如何为给定的多任务问题选择最优模型呢?一种解决方案是做模型选择,即使用交叉验证或其变体。该解决方案的局限性之一是计算量很大,因为每个候选模型都需要进行多次训练。

本论文提出了一个学习多任务(learning to multitask,L2MT)的框架,以基于学习的方法解决这个问题。L2MT 的主要思想是利用已有的多任务经验来学习如何为新的多任务问题选择合适的多任务模型。为了实现这一目的,研究者把已有的多任务经验表示为由元组组成的训练集,其中每个元组都有三个条目:一个多任务问题、一个多任务模型和相对测试误差,该误差等于多任务问题的多任务模型的平均测试误差与单任务学习模型的平均测试误差的比率。基于该训练集,研究者提出了一个端到端的方法来学习从多任务问题和多任务模型到相对测试误差的映射关系,这里需要确定多任务问题和多任务模型的表征。首先,研究者提出一种分层图神经网络(LGNN)来学习作为多任务问题中单个任务表征的任务嵌入,并将聚合所有任务嵌入得来的任务嵌入矩阵作为多任务问题的表征。对于那些公式统一的多任务模型,由于任务协方差矩阵扮演重要的角色且揭示了成对任务间的关系,所以使用协方差矩阵来表示任务。然后,将多任务问题和模型的表征都编码进评估函数以估计相对测试误差。对于一个新的多任务问题,我们可以通过 LGNN 学习任务嵌入矩阵,然后通过优化评估函数来学习任务协方差矩阵以及整个多任务模型,以取得较低的相对测试误差。在基准数据集上的实验结果显示了 L2MT 框架的有效性。

图 1:L2MT 框架图示,该框架由两个阶段组成。训练阶段基于训练数据集和特定多任务模型学习评估函数 f(·, ·),以逼近相对测试误差。测试部分则通过最小化相对测试误差(即来学习任务协方差矩阵表示第 i 个多任务问题 S_i 中第 j 个任务的训练数据集,Si 和表示测试多任务问题 S˜ 中第 i 个任务的训练数据集。LGNN 基于训练数据集进行训练学习,且被训练和测试多任务问题中的所有任务共享,研究者绘制了多个副本以便清晰呈现。

L2MT 框架有一些相关的学习范例,包括多任务学习迁移学习 [25] 和终身学习 [12]。但是,L2MT 框架与这些相关范例相去甚远。在多任务学习中,训练集只包含一个多任务问题,即 S_1,其目标是在给定多任务模型的情况下学习模型参数迁移学习和 L2MT 的区别与多任务学习和 L2MT 的区别类似。终身学习可以看作是在线迁移/多任务学习,因此它也与 L2MT 不同。

图 2:训练数据量改变时,不同模型在四个数据集上的结果。

图 3:使用 30% 的数据进行训练时,L2MT 在 20newsgroup 数据集上的灵敏度分析。

论文:Learning to Multitask

论文链接:https://arxiv.org/abs/1805.07541

摘要多任务学习在许多应用中表现不俗,学术界也提出了不少多任务模型。为了针对特定多任务问题制定有效的多任务模型,我们提出学习多任务(L2MT)框架。为了实现目标,L2MT 学习了以往的多任务经验,这些经验被分成包含多个元组的训练集,每个元组包含一个多任务问题、一个多任务模型以及相对测试误差。基于此类训练集,L2MT 首先使用提出的分层图神经网络来学习多任务问题中的任务嵌入,然后学习评估函数以基于任务嵌入来评估相对测试误差,以及基于统一公式评估多任务模型的表征。给出一个新的多任务问题,评估函数用于找出合适的多任务模型。基准数据集上的实验结果证明了 L2MT 框架的有效性。

理论神经网络腾讯AI Lab香港科技大学
2
相关数据
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

协方差矩阵技术

在统计学与概率论中,协方差矩阵(也称离差矩阵、方差-协方差矩阵)是一个矩阵,其 i, j 位置的元素是第 i 个与第 j 个随机向量(即随机变量构成的向量)之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

交叉验证技术

交叉验证,有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证的目标是定义一个数据集到“测试”的模型在训练阶段,以便减少像过拟合的问题,得到该模型将如何衍生到一个独立的数据集的提示。

多任务学习技术

推荐文章
暂无评论
暂无评论~