Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

2021年机器学习什么风向?谷歌大神Quoc Le:把注意力放在MLP上

在机器学习领域里有一句俗话:「Attention is all you need」,通过注意力机制,谷歌提出的 Transformer 模型引领了 NLP 领域的大幅度进化,进而影响了 CV 领域,甚至连论文标题本身也变成了一个梗,被其后的研究者们不断重新演绎。

技术潮流总有变化的时候——到了 2021 年,风向似乎变成了多层感知机(MLP)。近日,谷歌大脑 Quoc Le 等人的一项研究对注意力层的必要性提出了质疑,并提出了一种具有空间门控单元的无注意力网络架构 gMLP,在图像分类和掩码语言建模任务上均实现了媲美 Transformer 的性能表现。

图片


最近一段时间,多层感知机 MLP 成为 CV 领域的重点研究对象。谷歌原 ViT 团队提出了一种不使用卷积或自注意力的 MLP-Mixer 架构,并且在设计上非常简单,在 ImageNet 数据集上也实现了媲美 CNN 和 ViT 的性能。

接着,清华大学图形学实验室 Jittor 团队提出了一种新的注意机制「External Attention」,只用两个级联的线性层和归一化层就可以取代现有流行的学习架构中的「Self-attention」。同一时期,清华大学软件学院丁贵广团队提出的结合重参数化技术的 MLP 也取得了非常不错的效果。

Facebook 也于近日提出了一种用于图像分类的纯 MLP 架构,该架构受 ViT 的启发,但更加简单:不采用任何形式的注意力机制,仅仅包含线性层与 GELU 非线性激活函数

MLP→CNN→Transformer→MLP 似乎已经成为一种大势所趋。谷歌大脑首席科学家、AutoML 鼻祖 Quoc Le 团队也将研究目光转向了 MLP。在最新的一项研究中,该团队提出了一种仅基于空间门控 MLP 的无注意力网络架构 gMLP,并展示了该架构在一些重要的语言和视觉应用中可以媲美 Transformer。

图片


研究者将 gMLP 用于图像分类任务,并在 ImageNet 数据集上取得了非常不错的结果。在类似的训练设置下,gMLP 实现了与 DeiT(一种改进了正则化的 ViT 模型)相当的性能。不仅如此,在参数减少 66% 的情况下,gMLP 的准确率比 MLP-Mixer 高出 3%。这一系列的实验结果对 ViT 模型中自注意力层的必要性提出了质疑。

他们还将 gMLP 应用于 BERT 的掩码语言建模(MLM)任务,发现 gMLP 在预训练阶段最小化困惑度的效果与 Transformer 一样好。该研究的实验表明,困惑度仅与模型的容量有关,对注意力的存在并不敏感。随着容量的增加,研究者观察到,gMLP 的预训练和微调表现的提升与 Transformer 一样快。

gMLP 的有效性,视觉任务上自注意力和 NLP 中注意力机制的 case-dependent 不再具有优势,所有这些都令研究者对多个领域中注意力的必要性提出了质疑。

总的来说,该研究的实验结果表明,自注意力并不是扩展 ML 模型的必要因素。随着数据和算力的增加,gMLP 等具有简单空间交互机制的模型具备媲美 Transformer 的强大性能,并且可以移除自注意力或大幅减弱它的作用。

图片


论文地址:https://arxiv.org/pdf/2105.08050.pdf

模型方法

具有空间门控单元(Spatial Gating Unit, SGU)的 gMLP 架构示意图如下所示,该模型由堆叠的 L 块(具有相同的结构和大小)组成。

图片


每个块定义如下

图片


上图公式中的关键组件是 s(·),这是一个用于捕获空间交互的层。所以,研究者需要设计一个能够捕获 token 间复杂空间交互的强大 s(·)。

L 块的整体布局受到了反转瓶颈(inverted bottleneck)的启发,将 s(·) 定义为一个空间深度卷积(spatial depthwise convolution)。值得注意的是,不同于 Transformer,gMLP 模型无需位置嵌入,因为这类信息将在 s(·) 中被捕获。并且,gMLP 模型使用与 BERT 和 ViT 完全相同的输入和输出格式。

空间门控单元

为了实现跨 token 的交互,s(·) 层必须要包含空间维度上的收缩变换。最简单的方法是线性投影:

图片



在该论文中,研究者将空间交互单元定义为其输入和空间转换输入的乘积:

图片


图像分类任务

研究者在没有额外数据的 ImageNet 数据集上将 gMLP 应用于图像分类任务,以衡量它在计算机视觉领域的性能。他们将三个 gMLP 变体模型(gMLP-Ti、gMLP-S 和 gMLP-B)与其他基于原始 Transformer 的模型进行了对比,包括 ViT、DeiT 以及其他几个有代表性的卷积网络。

下表 1 给出了上述三个 gMLP 变体的参数、FLOPS 和生存概率(Survival Probability):

图片



下表 2 为不同模型的对比结果。可以看到,gMLP 的 Top-1 准确率与 DeiT 模型相当。这一结果表明,无注意力的模型在图像分类任务上具有与 Transformer 一样的数据高效性。此外,gMLP 可以媲美原始 Transformer,性能仅落后现有性能最佳的 ConvNet 模型和混合注意力模型。

图片

MLP-like 模型中的 Tokenization 和嵌入过程可视作一种卷积。

在掩码语言建模任务上的性能

研究者对不同模型在掩码语言建模任务(MLM)上的性能进行了实验研究。

消融实验:gMLP 中门控(gating)对 BERT 预训练的重要性

研究者为消融实验设置了三个基准模型:

  • 具有 Transformer 架构和可学得绝对位置嵌入的 BERT;

  • 具有 Transformer 架构和 T5-style 可学得相对位置偏差的 BERT;

  • 同上,但在 softmax 内部移除了所有与内容有关的项,并仅保留相对位置偏差。


在下表 3 中,他们将这些基准 BERT 模型与类似大小、不同版本的 gMLP 进行了对比。需要注意,表格最后一行 Multiplicative, Split 即上文方法部分描述的空间门控单元(SGU)。可以看到,SGU 的困惑度低于其他变体,具有 SGU 的 gMLP 得到了与 BERT 相当的困惑度。

图片


gMLP 学得的空间投影权重的可视化如下图所示

图片



案例研究:模型大小增加时,gMLP 的性能变化

在下表 4 中,研究者探究了随着模型容量的增长,Transformer 与 gMLP 模型的扩展性能。结果表明,在模型容量相当时,足够深度的 gMLP 在困惑度上的表现能够赶上甚至优于 Transformer(困惑度越低,模型效果越好)。

图片



gMLP 和 Transformer 这两类不同架构模型的困惑度 - 参数关系大体符合幂次定律(如下图 5 左)。此外,从图 5 中还可以看到,尽管在预训练和微调之间存在特定于架构的差异,但 gMLP 和 Transformer 在微调任务上均表现出了相当的扩展性。这表明,下游任务上模型的可扩展性与自注意力的存在与否无关。

图片



消融实验:tiny 注意力在 BERT 微调中的作用

为了脱离注意力的影响,研究者尝试了一个混合模型,其中将一个 tiny 自注意力块与 gMLP 的门控组件相连。他们将这个混合模型称为 aMLP(a 表示注意力)。

下图 6(左)为具有 tiny 自注意力块的混合模型,图 6(右)为 tiny 注意力模块的伪代码

图片


如下表 7 所示,研究者通过预训练困惑度和微调度量指标之间的校正曲线探究了 Transformer、gMLP 和 aMLP 的可迁移性。可以看到,就 SST-2 准确率而言,gMLP 的迁移效果优于具有注意力机制的 Transformer 模型,但在 MNLI 语料库上的表现较差,但在加了 tiny 注意力(即 aMLP)之后就缩小了差距。

图片



掩码语言建模任务的主要结果

研究者展示了完整 BERT 设置下预训练和微调的结果。他们使用了完整的英语 C4 数据集,并采用了批大小为 256、最大长度为 512 和 100 万步训练的常用掩码语言建模设置。

下表 5 为 BERT、gMLP 和 aMLP 模型的规格:

图片


如下表 6 所示,主要结果与前文结论保持一致,gMLP 在困惑度指标上可以媲美 BERT,模型规模越大结果更明显。

图片


网友质疑:这不就是 transformer 吗

不过,对于这项研究中提出的基于空间门控单元的 gMLP 架构,有网友质疑:「gMLP 的整体架构难道不是更类似于 transformer 而不是原始 MLP 吗?」

图片


也有知乎网友质疑到:「空间门控单元不就是注意力吗?」另一网友则表示:「不算是注意力可能是因为没有 softmax。」

图片

@陀飞轮 @霍华德。

对此,你怎么看呢?
理论
1
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

多层感知机技术

感知机(Perceptron)一般只有一个输入层与一个输出层,导致了学习能力有限而只能解决线性可分问题。多层感知机(Multilayer Perceptron)是一类前馈(人工)神经网络及感知机的延伸,它至少由三层功能神经元(functional neuron)组成(输入层,隐层,输出层),每层神经元与下一层神经元全互连,神经元之间不存在同层连接或跨层连接,其中隐层或隐含层(hidden layer)介于输入层与输出层之间的,主要通过非线性的函数复合对信号进行逐步加工,特征提取以及表示学习。多层感知机的强大学习能力在于,虽然训练数据没有指明每层的功能,但网络的层数、每层的神经元的个数、神经元的激活函数均为可调且由模型选择预先决定,学习算法只需通过模型训练决定网络参数(连接权重与阈值),即可最好地实现对于目标函数的近似,故也被称为函数的泛逼近器(universal function approximator)。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

伪代码技术

伪代码,又称为虚拟代码,是高层次描述算法的一种方法。它不是一种现实存在的编程语言;它可能综合使用多种编程语言的语法、保留字,甚至会用到自然语言。 它以编程语言的书写形式指明算法的职能。相比于程序语言它更类似自然语言。它是半形式化、不标准的语言。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

知乎机构

知乎,中文互联网综合性内容平台,自 2010 年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

zhihu.com
推荐文章
暂无评论
暂无评论~