Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心报道

傅里叶变换取代Transformer自注意力层,谷歌这项研究GPU上快7倍、TPU上快2倍

来自谷歌的研究团队表明,将傅里叶变换取代 transformer 自监督子层,可以在 GLUE 基准测试中实现 92% 的准确率,在 GPU 上的训练时间快 7 倍,在 TPU 上的训练时间快 2 倍。

Transformer 自 2017 年推出以来,其架构就开始在 NLP 领域占据主导地位。Transformer 应用的唯一限制之一,即 Transformer 关键组件的巨大计算开销–一种自注意力机制,这种机制可以根据序列长度以二次复杂度进行扩展。

基于此,来自谷歌的研究者建议用简单的线性变换替代自注意力子层,该线性变换「混合」输入 token,以较小的准确率成本损失显著的提高了 transformer 编码器速度。更令人惊讶的是,研究者发现采用标准的、非参数化的傅里叶变换替代自注意力子层,可以在 GLUE 基准测试中实现 92% 的 BERT 准确率,在 GPU 上的训练时间快 7 倍,在 TPU 上的训练时间快 2 倍。

论文链接:https://arxiv.org/pdf/2105.03824.pdf

该研究的主要贡献包括:

  • 通过用标准的非参数化傅里叶变换代替注意力子层,FNet 在 GLUE 基准测试中实现 92% 的 BERT 准确率,在 GPU 上的训练时间快 7 倍,在 TPU 上的训练时间快 2 倍。

  • 仅包含两个自注意子层的 FNet 混合模型在 GLUE 基准上可达到 97%的 BERT 准确率,但在 GPU 上的训练速度快近 6 倍,而在 TPU 上则是 2 倍。

  • FNet 在「Long Range Arena」基准评估中,与所有的高效 transformer 具有竞争力,同时在所有序列长度上拥有更少的内存占用。


 FNet 架构

Transformer 自注意力机制使得输入可以用高阶单元表示,从而可以灵活地捕获自然语言中各种语法和语义关系。长期以来,研究人员一直认为,与 Transformer 相关的高复杂性和内存占用量是不可避免的提高性能的折衷方案。但是在本论文中,Google 团队用 FNet 挑战了这一思想,FNet 是一种新颖的模型,在速度、内存占用量和准确率之间取得了很好的平衡。

FNet 架构。

FNet 是具有多个层的层归一化 ResNet 体系结构,每个层都由一个傅里叶混合子层和一个前馈子层组成。研究者将每个 transformer 编码器层的自注意力子层替换为傅里叶变换子层,该子层将 2D 傅里叶变换应用于其(序列长度、隐藏维度)嵌入输入 - 沿着序列维度和隐藏维度进行一维傅立叶变换。

所得结果是一个复数,可以将其写成实数乘以虚数单位(数学中的数字 i,从而可以求解没有实数解的方程式)。最后仅保留实数,无需修改(非线性)前馈子层或输出层以处理复数。

实验

在评估中,研究者比较了多个模型,包括 BERT-Base、FNet 编码器(用傅里叶子层替换每个自注意力子层)、线性编码器(用线性子层替换每个自注意力子层)、随机编码器( 用常数随机矩阵替换每个自注意力子层)、仅前馈编码器(从 Transformer 层中删除自注意力子层)。

由下表 3 可得,尽管线性模型和 FNet 训练的精确率略低,但它们明显快于 BERT——在 TPU 上大约快 2 倍,在 GPU 上大约快 7 倍。

下表 4 的 GLUE 验证分组中展示了最佳基础学习率的结果:

下图 2 和图 3 显示了 GPU(8 个 V100 芯片)和 TPU(4×4 TPU v3 芯片)预训练的速度与 MLM 准确率曲线。

研究者还利用 Tay 等人代码库,并在相同的硬件(4 × 4 TPU v3 芯片)上进行实验。为了确保实验的公平性,他们还展示了 Long-Range Arena 实验结果。

在下表 7 和表 8 中,研究者还提供了在 TPU(4×4 TPU v3 芯片)和 GPU(8 V100 芯片)上进行实验的可比指标。研究者在序列长度 {512,1024,2048,4096,8192,16386} 上执行网格搜索,而不仅仅是{1K,2K,3K,4K}。此外,该研究还包括 Performer 的结果(Choromanski 等人,2020b)。在比较模型效率时,研究者将 Performer 用作衡量标准。


理论傅里叶变换Transformer谷歌
1
相关数据
注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

傅里叶变换技术

傅里叶变换(法语:Transformation de Fourier、英语:Fourier transform)是一种线性积分变换,用于信号在时域(或空域)和频域之间的变换,在物理学和工程学中有许多应用。因其基本思想首先由法国学者约瑟夫·傅里叶系统地提出,所以以其名字来命名以示纪念。实际上傅里叶变换就像化学分析,确定物质的基本成分;信号来自自然界,也可对其进行分析,确定其基本成分。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章
暂无评论
暂无评论~