机器之心编辑部发布

人工智能让遥感数据释放巨大潜能:人口普查中的「人工」或将被取代

采用卷积神经网络(CNN)和卫星图像数据来预测区域收入水平的方法已经越来越广泛,部分方案正在尝试逐步商业化以推向市场。但由于 CNN 的「黑盒」特点,大多数模型并不能解释其预测的背后过程。 近期的一项研究采用热力图 Grad-CAM 对神经网络进行可视化,进一步探索了这些预测背后的逻辑,让人们对这些模型的可靠性产生了怀疑——在预测过程中是否采用了相似的特征,以及这些特征与收入水平的相关性。

近年来,无论是劳动力的迁移,还是教育和住房等资源的分配问题,背后都少不了对于城市化进程的思考,持续加速的城市化进程无疑对城市的社会经济环境产生了深远的影响,如何定量地监测和分析这一过程已经成为城市规划和城市环境研究领域的重要课题。

日益先进的遥感和卫星技术已经为观察特定地区的地理数据以及与城市化研究铺平了道路。通过人造卫星、飞机或其他飞行器上收集地物目标的电磁辐射信息,可判认该地区的地理环境和资源分布。例如城市人口密集程度和道路建设情况采集,人口的经济特征测量等。

随着多源、高精度遥感数据量的激增,传统的人工判读和半自动化软件解译的方式使其在效率和准确度打上折扣。而采用人工智能和高分辨率遥感可以说是天作之合,基于机器学习算法善于解决海量数据分析问题的特点,能够大幅缩短遥感图像解译周期、提高解译精准度。

事实上,采用卷积神经网络(CNN)和卫星图像数据来预测区域收入水平的方法已经越来越广泛,部分方案正在尝试逐步商业化以推向市场。比如在缺少经济生计可靠数据的发展中国家,基于高分辨率卫星图像来估计消费开支和财产财富无疑是一种精确、低廉和可升级的选择,将对当地政府的政策和规划决策带来重要参考。

「这类方案的基本思路是通过建模并提取与收入密切相关的特征进行预测。但我们的研究表明,事实可能并非如此,所以需要更为深入地了解 CNN 是如何将视觉特征整合到预测模型中的。」研究人员 Jacob Levy Abitbol、Ma´rton Karsai 说道。

Abitbol & Karsai 分别来自法国里昂高等师范学院 (ENS) 和匈牙利中欧大学(CEU),近日他们联合开发了一个神经网络模型,以实现从航拍图像中预测给定地点的社会经济状况,进而根据潜在的城市拓扑结构解释其激活图,从而缩小基于城市拓扑结构和高分辨率的社会经济地图之间预测的差距。该研究证实了卷积神经网络(CNN)针对卫星图像数据深入分析的潜能。

图 1:巴黎地区实际统计(左)和算法预测(右)的人均收入地图对比。每个像素代表 4000 平方米,颜色深浅代表不同地区居民的社会经济平均水平。来源:Abitbol & Karsai.

该研究的最终目标是通过分析某一地区当前的卫星 / 航空图像来收集有关该地区经济发展的数据,从而逐步替代人工收集的人口普查数据。在理想情况下,该模型需要具备可概括、可理解特点,即在区域 A 上训练出的模型应该在区域 B 上产生一致的结果,并且确保模型采用了正确的信号。

该研究采用法国城市的航拍图像进行训练,通过 MBConv 模块提取特征图,经过全局平均池化层(GAP)和密集层计算出单个 p 值。由此,从二项式分布中得出每个社会经济阶层的概率,预测该地区居民社会经济地位的能力。

研究的图像数据主要基于三类公开数据集,提取了五个法国城市在社会经济和土地利用数据方面的完整数据及航空图像:

  1. 由国家地理信息研究所 (IGN) 提供的法国市政的航拍照片;

  2. 由法国国家统计和经济研究所 (INSEE) 提供的高分辨率的社会经济地图 (2019 年);

  3. 由欧洲环境署提供的欧盟城市地图集 (2012 年),包含欧盟 28 个国家和欧洲自由贸易区 22 个国家。

数据集均可在线访问:

  • https://geoservices.ign.fr/documentation/diffusion/telechargement-donnees-libres.html#ortho-hr-sous-licence-ouverte

  • https://www.insee.fr/fr/statistiques/4176290?sommaire=4176305

  • https://land.copernicus.eu/local/urban-atlas/urban-atlas-2012

巴黎某一区域内的数据采集样本:a. 遥感 / 航拍图像;b. 收入的空间分布;c. 功能的空间分布。

该研究的代码现已开放,可免费用于非商业用途:

  • https://doi.org/10.5281/zenodo.3906063

论文地址:

  • https://arxiv.org/abs/2004.04907

在研究初期,需要寻找一个最佳的影像空间分辨率以建立可用的算法模型,Abitbol & Karsai 在 CNN 模型上取得了不错的结果。但随着算法进一步被测试,Abitbol & Karsai 发现其往往是被一些与收入或社会经济地位并非密切相关的城市特征激活。例如,由于公共及商业场所的灯光明亮,经济发达的城市地区通常在夜晚具有较强的照明强度,但是模型优先考虑的是居民区的其他功能。

于是,他们开始怀疑这些模型在预测不同地区的收入水平时是否采用了相似的特征,以及这些特征与收入水平的相关性

尽管针对卫星图像推断地区经济收入状况的深度学习模型不在少数,但大多数并不能解释其预测的背后过程。这很大程度上取决于卷积神经网络自身的技术特点——通过理论推导,以及梯度传播,去不断逼近局部最优解。但 Abitbol & Karsai 仍试图解释其模型的预测结果,以便更好地理解它是如何为每一幅图像推断出特定的收入。

为此,Abitbol & Karsai 采用热力图 Grad-CAM 对神经网络进行可视化,以研究模型的可解释性,即通过热力图的权重形式来展现,神经网络对图片的哪一部分激活值最大。

基于航拍图像(a),使用 Grad-CAM 计算出最贫困地区(b)和最富裕地区(c)的社会经济阶层的热力图;将热力图与航拍图进行叠加训练 CNN,得出城市功能区域的多边形图(d),计算出最贫穷地区(e)和最富裕地区(f)的标准化激活比率。( UA: urban area; DUF: discontinuous urban fabric)

通过将高分辨率的类判别激活图投射到原始地图上,并与土地利用数据叠加,以生成经验统计的特征,使模型更为准确地预测该地区在社会经济地位方面的土地利用类别。这一方案让社会经济地位的预测范围更加广泛,同时也精确地指出了预测城市环境的真实特征。此外,它还提供了不同的城市在城市拓扑结构和财富分配之间的关联模式。

该研究发现,在推测社会经济地位的过程中,CNN 模型忽略了土地利用和社会经济数据之间的现有相关性,而主要关注包含在居民区内的特征。这一发现为预测的实际应用引入了更多可解释性和参考,让政策的制定者和决策者不仅能够增进其模型内部运作模型的理解,同时也将为贫困地区的城市发展和城市规划带来更多启发。

尽管 CNN 已显示出收集地理社会经济数据的潜力,但该研究表明,其预测背后的过程存在不可靠可能,因此应进行进一步研究。接下来,该研究小组将会在预测模型的可解释性方面进行更多探索,使其能够更有效和可靠地执行。

Abitbol & Karsai 说道,「我们对于影响模型可预测和可解释程度的因素十分感兴趣,此外我们还将通过传统的视觉识别算法进行收入水平的预测,以验证 CNN 模型在不同地区的迁移能力以及进行高精度社会经济预测的准确性。」

产业遥感卷积神经网络卫星图像数据区域收入水平
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

遥感技术

遥感(remote sensing)是指非接触的、远距离的探测技术。一般指运用传感器/遥感器探测物体的电磁波辐射、反射特性。遥感通过遥感器这类对电磁波敏感的仪器,在远离目标和非接触目标物体条件下探测目标。

推荐文章
暂无评论
暂无评论~