唐杰作者

NeuIPS 2019 | Yoshua Bengio报告:如何用深度学习来实现System2?

近日, 图灵奖得主Yoshua Bengio在NeuIPS 2019带来一场题为《From System 1 Deep Learning To System 2 Deep Learing》的报告,提到了几个非常有意思的观点。

本文为大家带来Yoshua Bengio的报告详解。

报告地址:

https://nips.cc/Conferences/2019/Schedule?showEvent=1548

Yoshua认为,AI作为本世纪的惊人进步,仅仅依靠增加数据集、模型大小、电脑速度是否就足够了呢?实际上AI距真正的人工智能还差的很远!

Yoshua的第一个观点,是指人的认知系统包含两个子系统(这是认知理论中大家共识的观点):System1直觉系统,主要负责快速、无意识、非语言的认知,这是目前深度学习主要做的事情;System2是逻辑分析系统,是有意识的、带逻辑规划、推理以及可以语言表达的系统,这是未来深度学习需要着重考虑的。当然Yoshua也提到计算机作为Agent实现AI,需要从计算机角度考虑,比如更好的模型和知识搜索等。

对于如何用深度学习来实现System2?

Yoshua认为,对于计算机来说,最关键的是处理数据分布中的变化。对于System 2来说,基本的要素包括:注意力和意识。注意力(Attention)实际在目前的深度学习模型中已经有大量的实现和探讨,比如GAT(图注意力机制)等;意识这部分则比较难,其实意识最关键的是定义到怎样的边界。Yoshua提到意识先验可以使用稀疏因子图模型来实现,这是一个思路,实现了因果关系。从整体的理论框架方面可以考虑元学习(Meta-learning)、局部修正假设(localized change hypothesis)、因果发现(causal discovery),最后架构方面可以考虑如何学习不同对象的操作。

对于处理数据分布,传统机器学习都是基于IID(independent and identically distributed),也就是独立同分布的假设,但实际现状是很多真实场景下我们感兴趣的数据往往是出现次数非常少的数据,也就是我们在处理时需要关注更多的是OOD(out of distribution),也就是在数据中出现较少的分布,当然这需要我们在机器学习算法中有新的数据假设。尤其是从Agent的角度来考虑,需要考虑哪些是影响数据分布变化的因素,以及不同分布的可组合性等方法如何对现在的IID和OOD进行泛化。相对传统的符号AI系统,当前的AI需要更多具有泛化能力的机器学习能力。

注意力机制是最近几年深度学习发展的一个重要技术,最近几年在很多系统中都有大量应用,注意力机制可以看做实现意识的第一步,在人类大脑中有自上而下的注意力和自下而上的注意力。

从认知角度来说,意识是一个很复杂的机制,Global Workspace Theory是1988年Baars等人提出的一个认知神经理论,其核心思想就是意识内容在各种不同认知过程中全局存在,包括Attention、 Evaluation、 Memory and verbal report。这些概念听起来有点抽象,后来Dehaene、Changeux and colleagues 等人提出了一个Global Workspace Architecture的实现模型。Global workspace theory和前面介绍的System2很相似,其他和意识相关的认知理论还包括Multiple drafts theory,这是Daniel Dennett在1991年提出的一个理论。

机器学习和意识模型相结合的关键是如何在机器学习中实现意识,或者说意识相关的理论/模型如何帮助机器学习比如可以基于意识理论构造一些假设,然后用机器学习的方法来验证这些假设。当然从人的角度来看意识,高层次的表示可以说是语言,这需要把人的两个认知系统System1和System2有机地结合起来,也就是说把低层次的表示和高层次的决策结合起来。

Yoshua还提到了前意识/意识先验。具体可以使用稀疏因子图,稀疏因子图不是一个新的事,基本思路是图模型的统一模型,因子图的好处是可以把有向图和无向图都统一起来。稀疏因子图可以用来学习变量之间的因果关系,从而构造变量之间的因果关系(找到真正的因果关系,而不是给不同变量给一个权重,这是为什么考虑稀疏的原因)。

元学习(学习学习的模型)是可能实现机器学习到OOD和模型快速迁移的一个办法。说到OOD,究其原因是有行为的变化,或者是用户行为对于数据的干预。元学习的知识表示可以有效帮助克服OOD,比如通过元迁移学习到变量之间的因果关系,这里的挑战是如何学习到未知干预变量的因果特性。最后是如何学习样本的可能操作,类似自动机器学习,但这里是在对象的不同操作层面。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论深度学习Yoshua BengioNeuIPS 2019
5
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

独立同分布技术

在概率论与统计学中,独立同分布(缩写为IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。一组随机变量独立同分布并不意味着它们的样本空间中每个事件发生概率都相同。例如,投掷非均匀骰子得到的结果序列是独立同分布的,但掷出每个面朝上的概率并不相同。

迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

推荐文章
暂无评论
暂无评论~