Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

回顾60多种transformer研究,一文总结遥感领域最新进展

过去十年,基于深度学习的算法在遥感图像分析中得到广泛应用。最初引入到 NLP 领域的 transformer 已经渗透到计算机视觉领域。遥感社区也是如此,他们见证了视觉 transformer 用于各种任务的增加。不过,到目前为止许多调查都集中在计算机视觉中的 transformer,而关于遥感方面的调查却很少。

遥感成像技术在过去几十年取得显着进步。现代机载传感器在空间、光谱和分辨率上的不断提升,已经能覆盖地球表面大部分范围,因此遥感技术在生态学、环境科学、土壤科学、水污染、冰川学、土地测量和分析等众多研究领域发挥着至关重要的作用。由于遥感数据通常是多模态的、位于地理空间(地理定位)中,并且尺度通常是全球范围、数据规模也在不断增长等等,这些特性都为遥感成像的自动分析带来独特的挑战。

计算机视觉的许多领域中,如对象识别、检测和分割等等,深度学习尤其是卷积神经网络 (CNN) 已经是主流。卷积神经网络通常将 RGB 图像作为输入并执行一系列卷积、局部归一化和池化操作。CNN 通常依赖于大量的训练数据,然后将生成的预训练模型用作各种下游应用的通用特征提取器。基于深度学习计算机视觉技术的成功也启发了遥感界,并且在许多遥感任务中取得重大进展,如高光谱图像分类、变化检测和超高分辨率卫星实例分割

CNN 主要基础之一是卷积运算,它捕捉输入图像中元素(如轮廓和边缘信息)之间的局部交互。CNN 对空间连通性和平移等效性等偏差进行编码,这些特征有助于构建通用高效的架构。CNN 中的局部感受野限制了对图像中的远距离依赖关系(如远距离部分间的关系)的建模。卷积是与内容无关的,因为卷积滤波器的权重是固定的,无论其性质如何,都将相同的权重应用于所有输入。视觉 transfomer (ViTs) 在计算机视觉的各种任务中展示了令人印象深刻的性能。

ViT 基于 self-attention 机制,通过学习序列元素之间的关系有效地捕捉全局交互。最近的研究表明,ViT 具有依赖于内容的远程交互建模能力,并且可以灵活地调整其感受野以对抗数据中的干扰并学习有效的特征表示。因此,ViT 及其变体已成功用于许多计算机视觉任务,包括分类、检测和分割。

ViT 在计算机视觉领域的成功,遥感分析中使用基于 transformer 框架的的任务显着增长(见图 1),像超高分辨率图像分类、变化检测、全色锐化 ,建筑物检测和图像字幕都有 transformer 的身影。这开启遥感分析的新纪元,研究者采用各种不同的方法,如利用 ImageNet 预训练或使用视觉 transformer 执行遥感预训练。

图片

类似地,相关文献中也有基于纯 transformer 设计或利用基于 transformer 和 CNN 的混合方法的方法。由于针对不同遥感问题的基于 transformer 的方法的迅速涌现,跟上最新的进展变得越来越具有挑战性。

在文章中,作者回顾遥感分析领域取得的进展,并介绍在遥感领域中流行的基于 transformer 的方法,文章主要贡献如下:

对基于 transformer 的模型在遥感成像中的应用进行整体概述,并且作者是第一个对遥感分析中使用 transformer 进行调研的,弥合了计算机视觉遥感在这个快速发展和受欢迎的领域的最新进展之间的差距。

  • 对 CNN 和 Transformer 进行概述,讨论它们各自的优缺点。

  • 回顾文献中 60 多种基于 transformer 的研究工作,讨论遥感领域的最新进展。

  • 探讨遥感分析中 transformer 的不同挑战和研究方向。

文章的其余部分安排:第 2 节讨论有关遥感成像的其他相关调研;第 3 节概述遥感中不同的成像模式;第 4 节简要概述 CNN 和视觉 transformer;第 5 节回顾超高分辨率 (VHR) 成像;第 6 节介绍高光谱图像分析;第 7 节介绍合成孔径雷达(SAR)中基于 transformer 的方法进展;第 8 节讨论未来研究方向。

更多细节请参考原论文。

图片

  • 论文链接:https://arxiv.org/pdf/2209.01206.pdf

  • GitHub 地址:https://github.com/VIROBO-15/Transformer-in-Remote-Sensing

理论Transformer
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

遥感技术

遥感(remote sensing)是指非接触的、远距离的探测技术。一般指运用传感器/遥感器探测物体的电磁波辐射、反射特性。遥感通过遥感器这类对电磁波敏感的仪器,在远离目标和非接触目标物体条件下探测目标。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

实例分割技术

实例分割是检测和描绘出现在图像中的每个不同目标物体的任务。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

高光谱图像分类技术

高光谱图像分类是指对(超)光谱传感器捕获的图像中每个像素进行分类的任务。

推荐文章
暂无评论
暂无评论~