Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Ashish Vaswani等作者小舟编辑

CVPR 2021 | 超越卷积,自注意力模型HaloNet准确率实现SOTA

来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型,该模型可以超越标准的基线模型,甚至是高性能的卷积模型。
与卷积的参数依赖(parameter-dependent)缩放和内容无关(content-independent)交互相比,注意力场具有与参数无关的缩放和与内容有关的交互,因此自注意力机制有望改善计算机视觉系统。

近来的研究表明,与 ResNet-50 等基线卷积模型相比,自注意力模型在准确性 - 参数权衡方面有重要改进。

在一篇 CVPR 2021 Oral 论文中,来自谷歌研究院和 UC 伯克利的研究者开发了一种新的自注意力模型,该模型不仅可以超越标准的基线模型,而且可以超越高性能的卷积模型。

论文地址:https://arxiv.org/abs/2103.12731

具体而言,该研究提出了自注意力的两个扩展,并与自注意力的更高效实现相结合,提高了这些模型的运行速度、内存使用率和准确率。研究者利用这些改进开发了一种新的自注意力模型——HaloNet,并且在 ImageNet 分类基准的有限参数设置上准确率实现了新 SOTA。HaloNet 局部自注意架构如下图 1 所示:

迁移学习实验中,该研究发现 HaloNet 模型的性能优于更大的模型,并且具有更好的推理性能。在目标检测实例分割等较难的任务上,该研究简单的局部自注意力和卷积混合算法在非常强大的基线上显示出性能提升。

这些实验结果标志着在卷积模型主导的传统环境下,自注意力模型又迈出了新的一步。

方法概述

尽管该研究的模型使用自注意力代替卷积来捕获像素之间的空间交互,但它们采用了现代卷积神经网络(CNN)的一些重要架构特征。并且,和卷积神经网络一样,该研究计算多尺度特征层次结构,这些层次结构可以在局部化和实例分割等任务上以多种尺寸进行目标检测

因此,该研究开发了一个 strided 自注意力层,它是 strided 卷积的自然扩展。为了在无法引起全局注意力的较大分辨率下处理计算成本,研究者遵循局部处理(也是卷积和自然感知系统的核心)的通用原则,并使用自注意力的空间受限形式。下图 2 为注意力下采样层的工作流程:

该方法没有使用平移等价性(translational equivariance)来代替更好的硬件利用率,从而改善了速度和准确率之间的权衡。尽管使用的是局部注意力,但每个像素的感受野却非常大(达到了 18×18),并且更大的感受野有助于处理更大的图像。

此外,研究者还介绍了用于视觉任务的自注意力,并描述了如何放松平移等价性,以有效地将局部自注意力映射到硬件。

实验结果

每个 HaloNet 模型(H0–H7)都是通过连续提升表 2 中定义的超参数的值来设计的。研究者后续还会进行比肩 EfficientNet 的更大 HaloNet 模型的训练和评估工作。

可与 SOTA 卷积模型媲美

该研究在 ImageNet 基准上训练了 HaloNet 模型,批大小是 4096,学习率是 1.6,线性预热了 10 个 epoch,然后进行了余弦衰减。模型用 Nesterov 的加速梯度(Accelerated Gradient)训练 350 个 epoch,并使用 dropout、权重衰减、RandAugment 和随机深度进行了正则化

研究者验证了自注意力与视觉卷积各自的优势,并进一步理解了自注意力视觉架构的最佳设计方式。

实验结果如上表所示,带有正则化的 HaloNet 比 ResNet 的性能增益更多,但是对 ResNet 中重要的架构化模块却没有显著改进。

HaloNet 架构

研究者探究了放松平移等价性的影响以及邻域窗口与光晕大小的关系。

如下图 5 所示,放松平移等价性能够提升准确率

从下图 6 可以发现随着窗口大小的增加,准确率会不断提高。特别是,将窗口大小从 6×6 增大到 12×12,准确率会提升 1.3%。这些结果表明,增加窗口大小可以用于扩展模型,而无需增加参数数量,这可能对生产环境有利。

卷积 - 注意力混合改善了速度 - 准确率权衡

在一组控制变量实验中,该研究用卷积替代了自注意力,以了解当前注意力层最有利的地方。

在性能最优的模型(HaloNet H7)的每个阶段中,表 4 展示了借助 SE 模块用卷积替代注意力层的结果。除最后一个阶段外,其他所有阶段都进行卷积会产生最快的模型,尽管 top-1 准确率会显著降低(1%)。在卷积和注意力上分别进行分配可最小程度地降低预测准确率,同时显著改善训练和推断过程。未来研究者还将对改进的混合模型进行进一步的研究。

感兴趣的读者可以阅读论文原文,了解更多研究细节。

理论自注意力加州大学伯克利分校谷歌研究院CVPR
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

暂无评论
暂无评论~