机器之心编辑部报道

Hinton独立发布44页论文火爆社区,没有实验:给你们个idea,自己去试吧

深度学习推动了 AI 领域成为目前最热门的学科,但引领这一风潮的先驱者,如 Geoffrey Hinton,正期待对神经网络进行大刀阔斧的修改,让 AI 能力实现新的真正突破。


图片


「如果我们想让神经网络像人类一样理解图像,我们需要找出神经网络是如何表示部分 - 整体层次结构的。」谷歌副总裁、工程研究专家、Vector Institute 首席科学顾问、多伦多大学 Emeritus 荣誉教授 Geoffrey Hinton。


2 月 25 日,一篇署名只有图灵奖得主 Hinton 一人的 44 页论文被上传到了预印版论文平台 arXiv,引发了人工智能社区的震动。



图片

论文链接:https://arxiv.org/abs/2102.12627

这是在 2017 年,Hinton 及其合作者的胶囊网络 CapsNet 公开之后,他又一次对于深度学习模型架构的尝试。

有趣的是,人们拜读后发现,这一文章虽然篇幅很长,但主要叙述的是一种思想,Hinton 期待其他研究者们能够从中获得启发,顺着这样的思路开展后续研究。

图片


Hinton 在论文的摘要中写道:「这篇论文并没有描述一个已经在运行的系统。它只描述了一个有关表示的单一想法, 允许将几个不同的小组所取得的进步组合到一个称为 GLOM 的假想系统中。这些进步包含 Transformer、神经场(neural field)、对比表示学习、模型蒸馏和胶囊网络(capsule)。GLOM 回答了一个问题:具有固定架构的神经网络如何将图像解析为部分 - 整体的层次结构,而每个图像的层次结构又都不同?


这一想法简单地使用相同向量的孤岛来表示解析树中的节点。如果 GLOM 最终被证明可行,则其被应用于视觉或语言任务中时,可以大大改善 transformer 类系统产生表示的可解释性。


图片


Hinton 是否已经对这个想法进行了具体编写代码程度的尝试?对此,作者本人表示:他正在和 Laura Culp、Sara Sabour 一同研究这样的想法。

我们知道,Hinton 提及的谷歌研究科学家 Sara Sabour 此前也是胶囊网络论文的第一作者,在 NIPS 2017 论文《Dynamic Routing Between Capsules》出炉之后,Sara 也开源了一份 Capsule 代码。

GLOM 是怎样一个想法?

有强有力的心理学证据表明,人类会将视觉场景解析为部分与整体的层次结构,并将部分与整体之间视角不变的空间关系建模为他们为整体和部分分配的内在坐标系之间的坐标变换。如果想让神经网络像人类一样理解图像,我们就要弄清楚神经网络如何表征部分 - 整体这一层次结构。要做到这一点并不容易,因为一个真实的神经网络无法动态地分配一组神经元来表示解析树中的一个节点。神经网络无法动态分配神经元是一系列使用「胶囊」的模型的动机。

这些模型假设:一组名为「胶囊」的神经元将永远专注于一个特定类型的一部分,这一类型出现在图像的一个特定区域。然后,可以通过激活这些预先存在的、特定类型的胶囊的子集以及它们之间的适当连接来创建解析树但是,本论文描述了一种非常不同的方法,使用胶囊来表示神经网络中的部分 - 整体层次结构。

尽管本文主要关注单个静态图像的感知,但将 GLOM 看作一个处理帧序列的 pipeline 是最容易理解的,因此一张静态图像将被视为一些相同帧组成的序列。 

GLOM 架构是由大量使用相同权重的列组成的。每一列都是空间局部自编码器的堆栈,这些编码器学习在一个小图像 patch 中出现的多级表示。每个自动编码器使用多层自底向上编码器和多层自顶向下解码器将某一层级上的嵌入转换为相邻层级上的嵌入。这些层级与部分 - 整体层次结构中的层级相对应。例如,当显示一张脸的图像时,单个列可能会收敛到表示鼻孔、鼻子、脸和人的嵌入向量上。图 1 显示了不同层级的嵌入如何在单个列中交互。

图片

图片


图 1 并没有显示不同列中相同层级的嵌入之间的交互。这些交互比列内的交互简单得多,因为它们不需要实现部分 - 整体坐标转换。

它们就像多头 transformer 中表示不同词碎片(word fragment)的列之间的注意力加权交互,但它们更简单,因为查询、键和值向量都与嵌入向量相同。列间交互的作用是在一个层级上产生相同嵌入的 island,方法是让该层级上的每个嵌入向量回归到临近位置上的其他相似向量。这就产生了多个局部「回音室(echo chamber)」,在这些回音室中,某个层级上的嵌入主要关注其他志同道合的嵌入。

在每个离散时间和每一列中,将某个层级的嵌入更新为以下 4 个内容的加权平均值:

  1. 由自底向上的神经网络产生的预测,该网络之前作用于下一个层级的嵌入;

  2. 由自顶向下的神经网络产生的预测,该网络之前作用于上一个层级的嵌入;

  3. 前一个时间步的嵌入向量;

  4. 之前相邻列中相同层级的嵌入的注意力加权平均值。


对于静态图像,某一层级上的嵌入应随时间的流逝而稳定下来,以生成几乎相同向量的不同 island。层级越高,这些 island 应该越大,如图 2 所示。

图片


使用相似性的 island 表征图像的解析,避免了需要分配神经元组来动态地表示解析树的节点,或预先为所有可能的节点预留神经元组的需求。GLOM 没有分配神经硬件来表示解析树中的节点,也没有为节点提供指向其祖先和后代的指针,而是分配了一个适当的活动向量来表征该节点,并为属于该节点的所有位置使用了相同的活动向量。访问节点祖先和后代的能力是通过自底向上和自顶向下的神经网络实现的。而不是通过使用 RAM 进行表查找实现的。

和 BERT 一样,整个系统可以进行端到端训练,以便在最后的时间步从存在缺失区域的输入图像中重建图像,而目标函数还包括两个正则化程序,它们促使在每一层上的 island 几乎向量相同。正则化程序只是某层的新嵌入与自下而上和自上而下的预测之间的协议,增加该协议将有助于生成局部 island。

和其他神经网络有何不同

胶囊网络相比,GLOM 的主要优势在于它无需在每个层级将神经元预先分配给一组可能的离散部分,这允许在类似组件(如手臂和腿)之间进行更多的知识共享,并且在属于特定类型对象的部分的数量 / 类型上具有更大的灵活性。同时,GLOM 也不需要动态路径,而且其形成聚类的过程要比胶囊网络好得多。

而与最近大热的 Transformer 模型相比,GLOM 的重新布置等效于 transformer 的标准版本,但具有一些不同之处:每层的权重都相同;极大简化的注意力机制;在大多数 transformer 模型中用于提供更多表现力的 multiple head 被重新设计成用于实现部分 - 整体层次结构的多个层级。

图片


在该研究中,Hinton 表示,当初提出胶囊网络,是因为卷积神经网络 CNN 存在三个可感知的缺陷。如果你熟悉 CNN,那么也可以将 GLOM 视为一种特殊的 CNN,它在以下方面不同于标准 CNN:

• 它只使用 1×1 的卷积(除了前端之外)。
• 位置之间的交互是通过无参数平均来实现的,该平均实现了符合过滤器,后者允许自己使用霍夫变换(Hough transform)来激活单元,而不仅使用匹配的过滤器。
• 迭代不使用单个前馈遍历表示层级,而是允许神经场实现自上而下的影响。
• 它包括对比性自监督学习,并执行分层分割,这是识别的一部分,而不再是单独的任务。这解决了不透明的问题。

GLOM 网络,真的是未来方向吗?

正如网友们的评论所言:不论 Geoffrey Hinton 所提出的是否是一个好主意,人们可以发现他的写作风格非常令人愉快。这位 2018 图灵奖得主在篇幅不小的论文中很好地构建了自己的想法,并通过各种不同视角将其具体化。即使这种模型最终在技术上被证明不是很可行,人们也可以从他推理的过程中获得不小的启发。

图片


本论文最初是一个用于实现的设计文档,但很快就因为需要证明一些设计决策而放慢脚步。Hinton 使用假想的 GLOM 架构作为工具,来传达一系列彼此之间相关联的想法,这些想法旨在揭示神经网络视觉系统的内部构造。由于没有介绍可行的实现,Hinton 更容易专注于将想法表达清楚,避免人们忙于将「idea 质量」与「实现质量」放在一起谈论。

「科学和哲学的区别就在于,实验可以证明极其合理的想法是错误的,而极其不合理的想法也可以是正确的。」

目前,Hinton 正在参与一个合作项目,以检验 GLOM 架构的能力。同时,他也希望其他研究小组能够参与到验证上述想法的行列。

解析树中的节点由相似向量的 island 表示,这一观点统一了两种非常不同的理解感知的方法。第一种方法是经典的格式塔学派,主张人脑的运作原理属于整体论,整体不同于其部件的总和,还提出了「场(field)」的理论来建模感知。在 GLOM 中,一个 percept 就是一个场,表示整体的共享嵌入向量实际上与表示部分的共享嵌入向量非常不同。第二种方法是经典的人工智能派别,它依靠结构描述来建立感知模型。GLOM 也有结构描述,解析树中的每个节点都有自己的「地址(address)」,但地址位于可能嵌入的连续空间中,而不是硬件位置的离散空间中。

一些深度学习的批评者认为,神经网络不能处理组合的层次体系,需要有一个「神经符号」接口,使神经网络的前端和后端能够将高级推理移交给一个更加 symbolic 的系统。而 Hinton 相信,人类的主要推理模式是使用类比(analogy),而这些类比之所以成为可能,是因为学到的高维向量之间存在相似性。他还给出了一个关于神经符号接口的类比,认为这一接口就像汽车制造商们花费 50 年的时间阐释电动机的缺点,但最终还是纷纷将电动设备加入汽油引擎(混动、电气化)。

BERT 的巨大成功以及早期的研究成果(如果任务需要,神经网络可以输出解析树)清楚地表明,如果神经网络愿意,它们可以解析句子。通过构建 BERT 多头之间的交互,使它们对应于表示的级别,并通过添加一个对比学习的 regularizer,以促进在每个级别的多个词碎片上局部 island 的一致性,这可能表明 GLOMBERT 实际上在解析句子。

参考内容:https://www.reddit.com/r/MachineLearning/comments/lszl9c/r_new_geoffrey_hinton_paper_on_how_to_represent/
https://twitter.com/geoffreyhinton/status/1365311399287808002
理论神经网络Geoffrey Hinton
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

解析树技术

解析树是一个内部结构,由编译器或解释器在解析一些语言结构时创建,解析也被称为“语法分析”。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

CapsNet技术

Hinton 等人实现了一个简单的 CapsNet 架构,该架构由两个卷积层和一个全连接层组成,其中第一个为一般的卷积层,第二个卷积相当于为 Capsule 层做准备,并且该层的输出为向量,所以它的维度要比一般的卷积层再高一个维度。最后就是通过向量的输入与 Routing 过程等构建出 10 个 v_j 向量,每一个向量的长度都直接表示某个类别的概率。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

胶囊网络技术

简而言之,一个胶囊网络是由胶囊而不是由神经元构成。一个胶囊是一小群神经元,它们可以学习在一个图片的一定区域内检查一个特定的对象(比如,一个矩形)。它的输出是一个向量(例如,一个8维的向量)。每个向量的长度代表了物体是否存在的估计概率[1],它的方向(例如在8维空间里)记录了物体的姿态参数(比如,精确的位置、旋转等)。如果物体有稍微的变化(比如,移动、旋转、尺寸变化等),胶囊将也会输出一个长度相同但是方向稍微变化的向量。因此胶囊是等变的。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~