Yoshua Bengio 等作者魔王编译

ICLR 2020 | Bengio 一作论文:因果机制、元学习与模型泛化如何产生关联?

Yoshua Bengio 等人发表研究,基于学习器适应新分布的速度提出一种元学习因果结构。

Yoshua Bengio 等人基于学习器适应新分布的速度提出一种元学习因果结构,这些新分布由干预、智能体动作以及其它非稳态(non-stationarity)导致的稀疏分布变化引起。这项研究证明,在此假设下,正确的因果结构选择会使学习器更快地适应修改后的分布,因为在所学知识经过适当模块化后,分布变化将集中在一或多个机制中。这导致稀疏的预期梯度,以及在适应此类变化时需要重新学习的有效自由度的数量较少。因而,该研究将适应修改后分布的速度作为元学习的目标,表明这可用于决定两个观测变量之间的因果关系。

分布变化无需对应标准干预,学习器不具备关于干预的直接知识。该研究证明,因果结构可通过连续变量进行参数化,并以端到端的形式学得。研究者还探索了如何将这些想法用于学习编码器来映射低级观测变量与导致更快速分布外适应的未观测因果变量,进而学得一个表示空间,使之满足独立机制以及动作和非稳态导致的机制内微小稀疏变化的假设。

论文链接:https://arxiv.org/pdf/1901.10912.pdf

机器学习方法的泛化难题

目前的机器学习方法在训练分布以外的数据上泛化效果较弱,而泛化在实践中又是必然的。因此在与训练数据来自同一分布的测试集上取得优秀的泛化效果还不够,我们还希望在一个数据集上学得的内容可以在其它相关分布上实现很好的泛化。这些分布可能包含学习器见过的概念,而变化通常源于智能体的动作。一般而言,我们希望先前学得的知识能够形成坚实的基础,使学习器很快地适应新型相关分布,即获得优异的迁移结果。学习器可能仍需学习一些新概念,但是由于大部分其它相关概念(及其构成)已经被学习器捕捉,因此在迁移分布上的学习将非常迅速。

在缺乏假设的情况下,在无关的分布上实现成功的迁移是不可能的。这项研究假设在以适当的模块化方式表示知识时,分布变化是稀疏的,只有一个或少量模块发生变化。当分布变化由一或多个智能体的动作引起(如因果关系文献中探讨的干预)时尤其如此,即因果变量被限定为某个特定值。通常,智能体很难同时影响多个底层因果变量,尽管该研究并未过多涉及智能体学习,但它利用了智能体学习环境来帮助发现这些变量及其彼此之间的因果关系。

要想激发对因果结构推断的需求,你需要考虑真正实施或在想象中实施干预。若要以考虑干预的方式进行适当规划,那么你需要想象干预导致的变量联合分布的变化,即使之前从未见过这种变化。这超出了良好迁移学习的范畴,需要因果学习和因果推理。因此,仅学习观测变量的联合分布还不够。你还应当充分学习底层高级变量及其与恰当推断干预效果的因果关系。例如,A=Raining causes B=Open Umbrella(反之则不然)。改变 Raining 的边缘概率(如由于天气发生变化)不会改变 A 和 B 之间的关联机制(P(B|A)),但这会对 P(B) 产生影响。反过来,智能体对 B (Open umbrella) 的干预不会影响到 A (Raining)。这种不对称仅从 (A, B) 训练对中通常是无法看到的,除非分布发生变化,比如干预引起的分布变化。

这是该研究的动机,即学习器基于未必已知的干预带来的一组分布进行学习,不仅能够捕捉联合分布,还能发现一些底层因果结构。

Yoshua Bengio 等人的新思路

机器学习方法通常利用某种形式的数据分布假设(没有免费午餐定理告诉我们不要对泛化抱有信心)。该研究不仅考虑数据分布假设,还考虑分布的变化(如由于智能体的某些动作,训练分布转变为迁移分布)。该研究依赖这一假设:当关于分布的知识得到恰当表示时,分布的变化较小。这得益于底层假设(不过该假设很难直接验证):由于干预的某种泛化形式导致分布变化,因此仅有一个或少量真值机制发生改变。

如何才能利用这一假设呢?该研究进行了理论和实验验证,发现如果拥有正确的知识表示,则在训练分布上经过良好训练的模型能够快速适应迁移分布。这得益于该研究的假设:真值数据生成过程是独立机制的组成部分,当训练分布变成迁移分布时,仅有少量真值机制和参数需要改变。因此,捕获对应知识分解的模型仅需要少量更新和示例即可适应迁移分布。下文将展示,在未经更改的参数上预期梯度接近于 0(前提是模型在训练分布上得到很好的训练),因此在适应迁移分布的过程中有效搜索空间将大大缩小,从而实现快速适应。

因此,基于「正确的知识表示空间带来微小的分布变化」这一假设,研究者定义了度量适应速度的元学习目标,从而优化知识的表示、分解和结构化方式。这是该研究的核心想法。注意,在存在更多非稳态(即分布出现很多变化)时获得的信号也会更强,就像元学习中更多的元示例会带来更好的结果一样。

通过这种方式,研究者将机器学习领域通常认为的麻烦事(非稳态、不受控制的干预等导致的分布变化)转换成训练信号,从而找到一种恰当的方式将知识分解为匹配微小变化这一假设的组件和机制。因此,研究者最终以端到端的方式对在分布变化上的快速迁移及其稳健性进行优化。如果数据真的基于独立因果机制的组成部分生成,则存在模拟该结构的知识分解。如果在每个时间步中,现实世界智能体只能改变一个或少量高级变量(或生成这些高级变量的相关机制),则该研究关于(正确知识表示的)微小变化的假设得到验证。此外,除了实现快速迁移以外,该研究或许还能将对真实因果分解的近似恢复为独立机制(达到观测和干预能够揭示这些机制的程度)。

何为因?何为果?

学习具备两个离散变量的因果图

假设 A 和 B 是可以取 N 个可能值的离散变量,则考虑使用以下公式(A → B 模型和 B → A 模型)来估计其联合分布:

关于适应迁移分布的实验

研究者进行了多次实验,来对比正确的因果模型和不正确模型在迁移分布上的学习曲线。在来自不同但具备相关性的迁移分布的数据上仅执行少量梯度步的适应对于获得元学习算法可用的信号至关重要。为了展示适应的效果,促进对来自迁移分布的少量数据的利用,研究者在离散随机变量上对模型进行试验,变量可取 N = 10 个可能值。

参考阅读:贝叶斯网络之父 Judea Pearl 力荐、LeCun 点赞,这篇长论文全面解读机器学习中的因果关系

理论泛化元学习ICLR 2020因果推理Yoshua Bengio
相关数据
因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

边缘概率技术

边缘概率又称边缘分布,指在多维随机变量中,只包含部分变量的概率分布,边缘分布中实际上进行了降维操作。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

贝叶斯网络技术

贝叶斯网络(Bayesian network),又称信念网络或是有向无环图模型,是一种概率图型模型。例如,贝叶斯网络可以代表疾病和症状之间的概率关系。 鉴于症状,网络可用于计算各种疾病存在的概率。

找到机构
推荐文章
暂无评论
暂无评论~