Yoshua Bengio作者魔王、杜伟编辑

深度学习后,图灵奖得主Bengio研究核心是什么?因果表示学习

在近日发表的一篇论文中,图灵奖得主 Yoshua Bengio 等详细介绍了其团队当前的研究重心:将机器学习因果推理相结合的因果表示学习。研究者不仅全面回顾了因果推理的基础概念,并阐释了其与机器学习的融合以及对机器学习的深远影响。该论文已被《Proceedings of the IEEE》期刊接收。
一直以来机器学习因果推理是两个相对独立的研究方向,各有优缺点。

但在过去数年,两者开始互相借鉴,推进彼此的发展。如机器学习领域的蓬勃发展促进了因果推理领域的发展。采用决策树、集成方法、深层神经网络等强大的机器学习方法,可以更准确地估计潜在结果。在机器之心 2018 年的报道文章中,图灵奖得主、因果关系模型倡导者之一 Judea Pearl 也探讨了当前机器学习理论的局限性以及来自因果推理的七个启发。

于是,近年来,将两者结合起来的因果表示学习(Causal Representation Learning)吸引了越来越多的关注,成为人类迈向 Human Level AI 的潜在方向。

机器之心曾在 2020 年初,精选了几篇因果表示学习领域的最新文献,细致分析了不同方法的基本架构,帮助感兴趣的读者了解因果学习与机器学习可结合的方向和可能。(参考:反事实推理、特征分离,「因果表示学习」的最新研究都在讲什么?

今天,我们再为大家推荐一篇因果表示学习论文:Yoshua Bengio 团队发表的《Towards Causal Representation Learning》,该论文已被《Proceedings of the IEEE》期刊接收。

在 2020 年底的一场讲座中,Bengio 称这是他们当前研究项目的核心

论文链接:https://arxiv.org/pdf/2102.11107.pdf

Yoshua Bengio 等人在这篇论文中回顾了因果推理的基础概念,并将其与机器学习的关键开放性问题联系起来,如迁移与泛化,进而分析因果推理可能对机器学习研究做出的贡献。反过来看也是如此:大多数因果研究的前提是因果变量。因此目前 AI 与因果领域的核心问题是因果表示学习,即基于低级观测值发现高级因果变量。最后,该论文描绘了因果对机器学习的影响,并提出了该交叉领域的核心研究方向。

这篇论文的主要贡献如下:

  • 论文第二章介绍了物理系统中因果建模的不同层级,第三章展示了因果模型与统计模型的区别。这里不仅探讨了建模能力,还讨论了所涉及的假设与挑战。

  • 论文第四章将独立因果机制(Independent Causal Mechanisms,ICM)原则扩展为基于数据估计因果关系的核心组件,即将稀疏机制转移(Sparse Mechanism Shift)假设作为 ICM 原则的结果,并探讨它对学习因果模型的影响。

  • 论文第五章回顾了现有基于恰当描述子(或特征)学习因果关系的方法,覆盖经典方法和基于深度神经网络的现代方法,主要聚焦促成因果发现的底层原则。

  • 论文第六章探讨了如何基于因果表示数据学习有用的模型,以及从因果角度看机器学习问题。

  • 论文第七章分析了因果对实际机器学习的影响。研究者使用因果语言重新诠释了鲁棒性和泛化,以及半监督学习自监督学习、数据增强和预训练等常见技术。研究者还探讨了因果与机器学习在科学应用中的交叉领域,并思考如何结合二者的优势,创建更通用的人工智能

因果建模的层级

独立同分布设置下的预测

统计模型是对现实的粗浅描述,因为它们只需建模关联。对于给定的输入样本 X 和目标标签 Y,我们可能会想近似 P(Y |X) 以回答如下问题:「该图像包含狗的概率是多少?」或者「在给定诊断测量指标(如血压)下,病人心脏衰竭的概率是多少?」。在合适的假设下,这些问题可以通过基于 P(X, Y) 观察足量的独立同分布(i.i.d.)数据来得到答案。

分布偏移下的预测

干预式问题(Interventional question)的挑战性要比预测更高,因为它们所涉及的行为超出了统计学习独立同分布设置。干预(intervention)可能影响因果变量子集的值及其关系。例如「增加一个国家中鹳鸟的数量能否促进人类生育率的增长?」、「如果烟草被更多地添加了社会污名化色彩,抽烟的人是否会减少?」

回答反事实问题

反事实问题需要对事情的发生原因进行推理,在事情发生后设想不同行为的后果,决定哪些行为可以达到期望的结果。回答反事实问题要比回答干预式问题更难。但是,这对于 AI 而言或许是关键挑战,因为智能体能从想象行为的后果和了解哪些行为带来特定结果中获益。

数据的本质:观测、干预、(非)结构化

数据格式在推断关系类型中发挥重大作用。我们可以辨别数据模态的两轴:观测数据 vs 干预数据,手动工程数据 vs 原始(非结构化)感知输入。

观测与干预数据:人们常常假设但很少严格得到的一种极端数据格式是观测独立同分布数据,其每个数据点均独立采样自相同的分布。

手动工程数据与原始数据:在经典 AI 中,数据常被假设成可结构化为高级和语义有意义的变量,这可能部分对应于底层图的因果变量。

因果模型与推理

这部分主要介绍统计建模与因果建模的区别,并用形式化语言介绍了干预与分布变化。

独立同分布数据驱动的方法

对于独立同分布数据,强大的泛一致性(universal consistency)可以确保学习算法收敛至最低风险。这类算法确实存在,例如最近邻分类器、支持向量机神经网络。但是,目前的机器学习方法通常在面对不符合独立同分布假设的问题时性能较差,而这类问题对人类而言轻而易举。

Reichenbach 原则:从统计学到因果关系

Reichenbach [198] 清晰地描述了因果与统计相关性之间的联系:

X 与 Y 一致的情况属于特例。在没有额外假设的情况下,我们无法利用观测数据区分这些情况。此时,因果模型要比统计模型包含更多信息。

如果只有两个观测值,则因果结构发现会很难,但当观测值数量增多后,事情反而容易多了。原因在于,这种情况下存在多个由因果结构传达的非平凡条件独立性。它们将 Reichenbach 原则泛化,并且可以用因果图或结构因果模型的语言进行描述,将概率图模型与干预概念融合在一起。

结构因果模型(SCM)

SCM 考虑与有向无环图(directed acyclic graph, DAG)的顶点相关的一组观测值(或变量)X_1, . . . , X_n。该研究假设每个观测值根据以下公式得出:

从数学角度讲,观测值也是随机值。直观来看,我们可以把独立噪声理解为在图上扩散的「信息探头」(就像在社交网络上扩散的流言的独立元素)。这当然并不只是两个观测值,因为任何非平凡条件独立语句都要求至少三个变量。

统计模型、因果图模型与 SCM 的区别

下图 1 展示了统计模型与因果模型之间的差异。

统计模型可以通过图模型来定义,即带图的概率分布。如果图的边是因果性的,则该图模型为因果模型(这时,该图即为「因果图」)。结构因果模型由一组因果变量和一组结构方程构成,这些方程基于噪声变量 U_i 分布。


独立因果机制

独立性概念包含两个方面:一个与影响有关,一个与信息相关。在因果研究历史中,不变、自主和独立的机制以多种面目出现。例如,Haavelmo [99] 的早期工作假设改变 structural assignment 的其中一个,会使其他保持不变;Hoover [111] 介绍了不变准则:真正的因果序是在恰当干预下的不变性;Aldrich [4] 探讨了这些思想在经济学中的历史发展;Pearl [183] 详细探讨了自主性(autonomy),认为当其他机制服从外部影响时,因果机制能够保持不变。

该研究将任意现实世界分布视为因果机制的产物。此类分布的变化通常是由至少一个因果机制的变化导致。根据 ICM 原则,研究者得出了以下假设:

在 ICM 原则中,研究者表述了两个机制(形式化为条件分布)的独立性意味着这两个条件分布不应互相影响。后者可被理解为要求独立干预。

因果发现与机器学习

根据 SMS 假设,很多因果结构被认为需要保持不变。所以,分布偏移(如在不同「环境或语境」中观察一个系统)能够为确定因果结构提供很大的帮助。这些语境可以来自干预、不稳定时间序列或者多视图。同样地,这些语境可以被解读为不同的任务,从而与元学习产生关联。

传统的因果发现和推理假设单元(unit)是由因果图连接的随机变量。但是,真实世界的观测结果最初往往并未结构化为这些单元,例如图像中的物体。因此,因果表示学习的出现试图从数据中学习到这些变量,正如超越了符号 AI 的机器学习不要求算法操作的符号预先给定一样。基于此,研究者试图将随机变量 S_1, …, S_n 与观测值连接起来,公式如下:

其中 G 是非线性函数。下图 2 展示了一个示例,其中高维观测是对因果系统状态进行查看的结果,然后利用神经网络对其进行处理,以提取在多种任务上有用的高级变量。

为了结合结构因果建模和表示学习,我们应努力将 SCM 嵌入到更大的机器学习模型中,这些模型的输入和输出也许呈现高维和非结构特点,但其内部工作至少部分由 SCM 控制(可使用神经网络对其进行参数化)。

研究者在下图 3 中展示了一个可视化示例,其中恰当因果变量的变化很稀疏(移动手指导致手指和方块位置发生变化),但在像素空间等其他表示中变化则很稠密(手指和方块的移动导致很多像素值发生变化)。

研究者从因果表示学习的角度讨论了现代机器学习面临的三个问题,分别是解耦表示学习、可迁移机制学习以及干预式世界模型和推理学习。

因果推理机器学习的影响

上文所有讨论都需要一种不依赖常见 i.i.d. 假设的学习范式。研究者希望做出一种较弱的假设:应用模型的数据可能来自不同的分布,但涉及的因果机制(大多)相同。

半监督学习(SSL)

假设潜在因果图为 X → Y,并且同时想要学习映射 X → Y,则这种情况的因果因式分解如下:

从 SSL 的角度来看,后续发展包括进一步的理论分析和条件式 SSL。将 SSL 视为利用边际 P(X) 和非因果条件式 P(Y |X) 之间的依赖性,这一观点与验证 SSL 合理性的常见假设一致。

此外,SSL 领域的一些理论结果使用因果图中众所周知的假设(即使这些假设没有提及因果关系):协同训练理论陈述了无标注数据的可学习性,并且依赖预测器基于给定标签有条件独立的假设。我们通常期望该预测器(仅)由给定标签引起,即反因果设置。

对抗脆弱性

现在假设我们处在因果设置中,其中因果生成模型因式分解为独立的组件,组件之一(本质上)是分类函数。因此,我们或许会期望,如果预测器近似具备固有可迁移性和鲁棒性的因果机制,则对抗样本应该更难找到。

最近的工作支持了这种观点:对抗攻击的一种潜在防御方法通过建模因果生成方向来解决反因果分类问题,这种方法在视觉领域中被称为合成式分析(analysis by synthesis)。

鲁棒性和强泛化性

为了学习一个鲁棒的预测器,我们应该拥有一个环境分布的子集,并求解

在实践中,求解公式 (18) 需要指定一个具有干预相关集合的因果模型。如果观测环境集合 ε 与可能的环境集合 Ρ_ɡ不一致,则我们将得到额外的估计误差,在最坏的情况下,该估计误差可能会任意大。

预训练、数据增强与自监督

学习用于解决 (18) min-max 优化问题的预测模型难度较高。该研究将机器学习中的多个常见技术解释为近似 (18) 的方法。第一个方法是丰富训练集的分布;第二个方法通常与前一个结合使用,即依赖数据增强来增加数据多样性;第三个方法是依靠自监督学习 P(X)。

一个有趣的研究方向是将所有这些技术结合起来,即基于来自多个模拟环境的数据进行大规模训练、数据增强、自监督和鲁棒性微调。

强化学习

相比机器学习主流研究,强化学习 (RL) 更接近因果研究,因为它有时能够高效地直接估计 do-probabilities。但是,在离策略学习设置下,尤其是批(或观测)设置下,因果问题变得细微。应用于强化学习的因果学习可以分为两个方面:因果归纳和因果推理

强化学习设置下的因果归纳与经典因果学习设置下所面临的挑战大有不同,因为因果变量通常是给定的。但是,越来越多的证据表明恰当环境结构化表示的有效性。例如:

  • 世界模型;

  • 泛化、鲁棒性与快速迁移;

  • 反事实;

  • 离线强化学习


科学应用

机器学习应用于自然科学领域时,一个基本的问题是:我们可以在多大程度上用机器学习来补充对物理系统的理解。一个有意思的方向是使用神经网络进行物理仿真,它与手工设计的模拟器相比效率要高得多。另一方面,缺乏系统的实验条件可能会在医疗等应用领域遭遇挑战。

因果关系在帮助理解医学现象方面具有巨大的潜力。在新冠疫情期间,因果中介分析(causal mediation analysis)有助于,在观察到辛普森悖论的教科书式示例时,真正查出不同因素对病死率的影响。

科学应用的另一个示例是天文学,研究者们使用因果模型在仪器混淆的情况下识别系外行星。

多任务学习与持续学习

多任务学习是指构建一个可以在不同环境中解决多个任务的系统。这些任务通常具有一些共同的特征。通过学习跨任务的相似性,系统在遇到新任务时可以更有效地利用从先前任务中获得的知识。

在这一方面,我们显然已经走了很长一段路,且没有明确地将多任务问题视为因果问题。在海量数据和算力的推动下,人工智能在广泛的应用领域里取得了显著的进步。这也让人们产生了一个问题:「为什么我们不能直接训练一个巨大的模型来学习环境动态(如强化学习中的设定),使其包含所有可能的干预呢?」毕竟,分布式表示可以泛化至未见样本,如果基于大量干预进行训练,则我们可能会得到一个在大量干预之间实现良好泛化的大型神经网络

要这么做的话,首先如果数据的多样性不够,则最糟糕的情况是未见分布偏移造成的误差仍然可能很高。此外,如果我们拥有一个能够成功应对特定环境中所有干预的模型,则我们可能希望在具备相似动态的不同环境中使用它,尽管不一定动态完全相同。

本质上,i.i.d. 模式识别只是一种数学抽象,因果关系对于大多数形式的 animate learning 而言可能是必不可少的。然而直到现在,机器学习仍忽略对因果关系的完整集成,该研究认为机器学习会从集成因果概念中获得收益。研究者认为,将当前的深度学习方法与因果关系的工具和思想结合起来,可能是迈向通用 AI 系统的必经之路。

理论表示学习因果推理机器学习Yoshua Bengio
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

有向无环图技术

在图论中,如果一个有向图从任意顶点出发无法经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

条件独立性技术

在概率论和统计学中,两事件R和B在给定的另一事件Y发生时条件独立,类似于统计独立性,就是指当事件Y发生时,R发生与否和B发生与否就条件概率分布而言是独立的。换句话讲,R和B在给定Y发生时条件独立,当且仅当已知Y发生时,知道R发生与否无助于知道B发生与否,同样知道B发生与否也无助于知道R发生与否。

集成方法技术

在统计学和机器学习中,集成方法使用多种学习算法来获得比单独使用任何组成学习算法更好的预测性能。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

独立同分布技术

在概率论与统计学中,独立同分布(缩写为IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。一组随机变量独立同分布并不意味着它们的样本空间中每个事件发生概率都相同。例如,投掷非均匀骰子得到的结果序列是独立同分布的,但掷出每个面朝上的概率并不相同。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

多任务学习技术

因式分解技术

在数学中,把一个数学因子(比如数字,多项式,或矩阵)分解其他数学因子的乘积。比如:整数15可以分解成两个质数3和5的乘积,一个多项式x^2 -4 可被因式分解为(x+2)(x-2)。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~