Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

三巨头共聚AAAI:Capsule没有错,LeCun看好自监督,Bengio谈注意力

深度学习三巨头在 AAAI 讲了什么?2019 版 Capsule 这条路走得对;自监督学习是未来;注意力机制是逻辑推理与规划等高级能力的核心。

2 月 7 日,人工智能顶会 AAAI 2020(第 34 届 AAAI 大会)已于美国纽约正式拉开序幕,本届会议将持续到 2 月 12 日结束。受疫情影响,中国大陆约有 800 名学者缺席此次会议,很多中国学者选择远程参会。

本届 AAAI 大会共收到了 8800 篇提交的论文,评审了 7737 篇,并最终接收了 1591 篇,接收率为 20.6%。其中中国投稿 3189 篇论文,共被接收 589 篇,为所有国家与地区中投稿量、接收量最多的区域。美国紧随其后,共被接收 368 篇论文(1599 篇投稿)。

在大会第三天,即当地时间 9 号,AAAI 2020 举行了 2018 图灵奖得主主旨演讲与圆桌论坛,即深度学习「三座山头」分别发表了主旨演讲,并针对一些前沿问题作出讨论。

在这两个多小时中:

  • Geoffrey Hinton 介绍了《Stacked Capsule Autoencoders》,即一种无监督版本的 Capsule 网络,这种神经编码器能查看所有的组成部分,并用于推断跟细节的特征;

  • Yann LeCun 在《Self-Supervised Learning》中再次强调了监督学习的重要性;

  • Yoshua Bengio 在《Deep Learning for System 2 Processing》中回顾了深度学习,并讨论了当前的局限性以及前瞻性研究方向。

在这特殊的两个小时里,我们能听到三位先驱对深度学习的理解与期望,「因为在深度学习概念与工程上的突破,并使深度学习成为计算的一个重要构成」,这正是三位先驱获得图灵奖的重要原因。

深度学习「三大巨头」演讲现场。

如下所示第一个视频,目前 AAAI 已经发布了完整的图灵奖得主演讲视频,视频录制了将近三个半小时,演讲内容大概从 1 小时候十分开始。

视频地址:https://vimeo.com/390347111

三位先驱演讲核心

其实最好的方式还是亲自听听三位先驱对深度学习的深刻理解,不过因为演讲内容非常丰富,我们可以先概览一下核心内容。

Hinton:2019 年版的 Capsule 走对了

首先,Hinton 的演讲主题其实是他在去年 6 月份发表的一份研究,该论文利用局部图形之间的几何关系,从而推理目标是什么。该研究继承了之前关于胶囊网络的成果,并扩展到无监督学习任务中。

1. 卷积神经网络的缺陷

Hinton 首先具体分析了传统卷积神经网络的局限性。例如视角的转换会造成 CNN 识别失败,它解析图像的方式还存在很多问题。

事实上,卷积网络并不理解图像整体与局部之间的关系,它只是尽可能描述二维空间上的图像信息。每一层卷积网络包含越来越多的上下文信息,从而描述图像不同位置到底发生了什么。

Hinton 表明,计算机视觉与计算机图形学应该是互为逆问题。图形学使用层级模型,该模型的空间结构由矩阵建模以表征转换关系,这种关系即整体嵌入的坐标帧(coorfinate frame)转化到每一个组成部分嵌入的坐标帧。这种采用矩阵的方法对视角的变化完全是稳健的,这种表征也能快速计算组成部分与整体之间的关系。

所以与图形学相对,采用这种类似的表征来处理 CV 中视角的变化是一种极好的方法。

2.Capsule 直观思想

一个目标可以视为一组相互联系的组成部分,它们应该是通过几何关系组织的。如果有一个系统,它能充分利用这些几何关系来识别目标,那么这种系统天生就是非常鲁棒的,因为固有的几何关系对视角而言是不变的。

根据这种直观思想,Hinton 等研究者介绍一种无监督版本的胶囊网络,其中编码器可以观察图像完整的组成部分,并用于推断目标类别。这种神经编码器可以通过解码器中的反向传播过程进行训练。

对于 第一版采用动态路由的 CapsNet,以及后面采用 EM Routing 的胶囊网络,它们都是 Hinton 等研究者的早期尝试,它们分别被 NeurIPS 2017 与 ICLR 2018 接收。在 AAAI 2020 的演讲上,Hinton 说:「忘了前面所有版本的 Capsule,它们都是有误的,2019 年这个版本是对的。」

Hinton 所说的 2019 版即 Stacked Capsule Autoencoders(SCAE),它采用无监督学习方式,并使用矩阵来表达整体与组成部分之间的关系。而之前判别式 Capsule 的表征方式并不一样,它采用矩阵表示组成部分与整体之间的关系。

在第一次提出 CapsNet 时,Geoffrey Hinton 介绍到:「Capsule 是一组神经元,其输入输出向量表示特定实体类型的实例化参数(即特定物体、概念实体等出现的概率与某些属性)。我们使用输入输出向量的长度表征实体存在的概率,向量的方向表示实例化参数(即实体的某些图形属性)。同一层级的 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测。当多个预测一致时(本论文使用动态路由使预测一致),更高级别的 capsule 将被激活。」

而现在到了 2019 年版 Capsule,他表示 Capsule 为一组用来表征相似形状或组成部分的神经元。如下两个正方形与椭圆组成的图形为一个 capsule 单元:

3. 新模型核心概念

Hinton 在演讲中表示:「读懂了下图这张 PPT,就读懂了整个模型。」对于 SCAE 来说,它主要包含两个阶段,第一阶段 Part Capsule Autoencoder (PCAE) 会将图像分割为组成部分,并推断出它们的姿态(Pose)。

第二阶段 Object Capsule Autoencoder (OCAE) 会尝试组织挖掘的组成部分、前面推断出来的姿态,并构建更小的一组目标。这种目标能通过不同组成部分自己的混合预测来构建对应的姿态。

Hinton 等研究者在未标注数据上训练 object-capsules 和 part-capsules,并聚类 object capsule 中的向量,实验结果表明这种无监督胶囊网络具有非常好的属性。Hinton 在演讲的后面介绍了 SCAE 的效果及可视化,感兴趣的读者也可以具体看看论文。

无监督胶囊网络通过相互独立的 object capsule 来解释不同的目标类别。选自 arXiv: 1906.06818。

最后,Hinton 对目前的 Capsule 研究做出总结,尽管直接学习组成部分之间的几何关系非常有吸引力,但我们还需要克服很多阻力。例如,推断 high-level capsule 哪一个是存在的,它们的姿态又是什么样的,这样的问题比较困难。我们也许可以使用 Transformer 帮助解决这个问题。

LeCun: SSL 才是未来

首先解释他的理解什么是深度学习,并简单介绍了下监督学习强化学习。LeCun 表示利用监督学习方法确实可以做一些有效的工作,不过会要求大量标记后的样本及数据,当有足够的数据时,监督式学习表现出的效果会非常好。而另一方面的强化学习,虽然在游戏中和模拟中的效果很好,如果要应用至现实生活中还需要大量的试验否则后果会非常严重。并提出了他所认为的目前深度学习三大挑战:

  • 当标签数据充足时,针对于感知的监督学习才会有不错的效果

  • 当实验成本低廉的时候(如在模拟实验中)强化学习才可以有较好的效果

  • 以及在当下整个社区都在推进的三个问题:尝试使用更少的标记样本或者更少的实验去训练,尝试学会推理并超越简单的感知计算,尝试规划复杂的动作序列。

而对于 LeCun 最倾向的监督学习,他则表示监督学习相当于在填补空白,就目前来说监督学习自然语言处理领域表现的非常不错,而在图像识别及图像理解方面表现的效果却是一般。(51:54 补充个原因)

相比于强化学习,监督式学习以及监督学习,LeCun 认为强化学习属于弱反馈,监督学习虽然可以预测一个类别或数字但是属于中等反馈,而监督学习可预测其输入的任何一部分(如预测视频中未来的画面)则可以产生大量反馈,从而应用广泛。

其次主要举例介绍了基于能量的建模,其核心目的是能够学会处理不确定性的同时合理避开可能性,并详细分享了塑造能量函数的七种策略应该是什么样的。

另一方面的案例则是基于自动驾驶方向,自动驾驶一个(随机)正向模型的学习,其本质是学会预测周围的人都会做什么。通过使用自监督模型进行规划及学习,使用前向模型去了解如何和驾驶,比如训练前向模型用于预测每辆车相对位于中央位置车的运动情况等。

最后,LeCun 表示监督学习(SSL)才是未来发展的趋势,它能在各种任务中学习到分层特征,以及现实生活中可使用的海量数据作为资源。但并不是尽善尽美,同时也面临处理预测中不确定性的挑战,比如之前的案例基于能源的模型。

而针对基于向量表示和能量最小化的推理而言,目前还有大量的工作要去完善。LeCun 只列举了两个例子,具有潜变量基于能量的模型,以及他之前一再提及的用向量代替符号,用连续函数代替逻辑。而针对如何学习行动规划的等级表示法,他表示目前也是毫无头绪。

Bengio:注意力机制是核心

目前深度学习是什么样的,如果要获得更强的学习能力,未来的发展方向又是什么样的?Yoshua Bengio 首先就表示,根据「没有免费午餐定理」,并不存在完全通用的智能,归纳偏置与先验知识在智能系统中都是需要的。目前深度学习已经整合了人类启发的先验知识,但更强的先验知识对于样本复杂度是指数级的收益。

Bengio 首先介绍了系统 1 与系统 2 之间的差别,目前深度学习正处于系统 1,它在感知层面上已经有非常不错的效果。正如之前的一条经验法则,如果人类能在几秒内做出判断的问题,那么机器学习也有潜力来解决。而对于系统 2,它需要更多的逻辑推断、规划,它正是深度学习未来应该解决的问题。

对于系统 2「有意识地运算」,Bengio 表明最核心的组成部分之一就是注意力机制,它在同一时间内会关注某些最为重要的神经元。完全采用注意力机制的 Transformer,也是目前 NLP 最强大的模型。

Bengio 表明,注意力机制其实就像动态连接,接受者会受到选定的值。注意力机制也可以追溯到认知神经科学,选定的值会传播到其它神经元,并储存在短期记忆中。

后续,Bengio 还介绍了很多系统 2 中的深度学习,它们应该是什么样的。例如对于挖掘因果与影响关系,其实它类似于如何分解一个联合分布。

最后,对于演讲中给出的众多假设,Bengio 说,这是他们实验室对真实世界的理解,如果它们能够嵌入现有的机器学习系统,那么就能构建一些非常强力的能力,这些能力能带领深度学习进入系统 2。

三巨头圆桌讨论

在三位深度学习先驱介绍了自己所思所想之后,还有半个小时的圆桌论坛,读者们可以通过原视频看看大佬之间的对话。

虽然目前深度学习在众多任务上取得了成功,但它同时也饱受质疑。不过三位先驱都认为通过一些强有力的工具,深度学习能以更合理的方式学习更高级的能力。

三位先驱的演讲都特别关注无监督或者监督学习,对于 Hinton 来说,Capsule 这个概念在无监督学习上找到了最合适发展方式;LeCun 则一直提倡采用监督学习,它类似于降噪自编码器,利用完整数据监督不完整数据的修复。Bengio 从「系统 2」出发,探讨先验知识如何降低数据的需求。

在圆桌会上,经常会有一些非常有意思的话题,例如主持人 MIT 教授 Leslie Kaebling 说:「很多人注意到深度学习与符号 AI 有一些不同的见解,那么这两者能握手言和吗?」Hinton 打趣道,这两个学派其实是有着悠久的历史。

最后三位先驱还讨论了深度学习这个研究领域的结构,以及未来的发展方向。Bengio 注意到现在年轻研究者发表论文的机会,要比他读书时多得多。但对于更多的研究者,他们应该将眼光放远一点,关注更多的长期问题。

Hinton 接着说:「如果我们对某个过程有新想法,那么会对这个主题进行短期的研究,只要有一些进步,就可以发一篇论文。这就像我们拿到了一本数独题集,我们会快速浏览一遍,然后找到那些容易解决的题目,并填上数独。这对其它研究者来说也是不好的体验。」

深度学习正在快速发展,每一年模型与研究都是新面貌。三位先驱的思想与观点,也许正指明了未来的发展方向。

入门深度学习三巨头AAAI 2020
4
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

降噪自编码器技术

当采用无监督的方法分层预训练深度网络的权值时,为了学习到较鲁棒的特征,可以在网络的可视层(即数据的输入层)引入随机噪声,这种方法称为Denoise Autoencoder(简称dAE)

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

CapsNet技术

Hinton 等人实现了一个简单的 CapsNet 架构,该架构由两个卷积层和一个全连接层组成,其中第一个为一般的卷积层,第二个卷积相当于为 Capsule 层做准备,并且该层的输出为向量,所以它的维度要比一般的卷积层再高一个维度。最后就是通过向量的输入与 Routing 过程等构建出 10 个 v_j 向量,每一个向量的长度都直接表示某个类别的概率。

认知神经科学技术

认知神经科学(英语:Cognitive neuroscience)是一门科学学科,旨在探讨认知历程的生物学基础。主要的目标为阐明心理历程的神经机制,也就是大脑的运作如何造就心理或认知功能。认知神经科学为心理学和神经科学的分支,并且横跨众多领域,例如生理心理学、神经科学、认知心理学和神经心理学。认知神经科学以认知科学的理论以及神经心理学、神经科学及计算机模型的实验证据为基础。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~