近年来,无论是劳动力的迁移,还是教育和住房等资源的分配问题,背后都少不了对于城市化进程的思考,持续加速的城市化进程无疑对城市的社会经济环境产生了深远的影响,如何定量地监测和分析这一过程已经成为城市规划和城市环境研究领域的重要课题。
日益先进的遥感和卫星技术已经为观察特定地区的地理数据以及与城市化研究铺平了道路。通过人造卫星、飞机或其他飞行器上收集地物目标的电磁辐射信息,可判认该地区的地理环境和资源分布。例如城市人口密集程度和道路建设情况采集,人口的经济特征测量等。
随着多源、高精度遥感数据量的激增,传统的人工判读和半自动化软件解译的方式使其在效率和准确度打上折扣。而采用人工智能和高分辨率遥感可以说是天作之合,基于机器学习算法善于解决海量数据分析问题的特点,能够大幅缩短遥感图像解译周期、提高解译精准度。
事实上,采用卷积神经网络(CNN)和卫星图像数据来预测区域收入水平的方法已经越来越广泛,部分方案正在尝试逐步商业化以推向市场。比如在缺少经济生计可靠数据的发展中国家,基于高分辨率卫星图像来估计消费开支和财产财富无疑是一种精确、低廉和可升级的选择,将对当地政府的政策和规划决策带来重要参考。
「这类方案的基本思路是通过建模并提取与收入密切相关的特征进行预测。但我们的研究表明,事实可能并非如此,所以需要更为深入地了解 CNN 是如何将视觉特征整合到预测模型中的。」研究人员 Jacob Levy Abitbol、Ma´rton Karsai 说道。
Abitbol & Karsai 分别来自法国里昂高等师范学院 (ENS) 和匈牙利中欧大学(CEU),近日他们联合开发了一个神经网络模型,以实现从航拍图像中预测给定地点的社会经济状况,进而根据潜在的城市拓扑结构解释其激活图,从而缩小基于城市拓扑结构和高分辨率的社会经济地图之间预测的差距。该研究证实了卷积神经网络(CNN)针对卫星图像数据深入分析的潜能。
图 1:巴黎地区实际统计(左)和算法预测(右)的人均收入地图对比。每个像素代表 4000 平方米,颜色深浅代表不同地区居民的社会经济平均水平。来源:Abitbol & Karsai.
该研究的最终目标是通过分析某一地区当前的卫星 / 航空图像来收集有关该地区经济发展的数据,从而逐步替代人工收集的人口普查数据。在理想情况下,该模型需要具备可概括、可理解特点,即在区域 A 上训练出的模型应该在区域 B 上产生一致的结果,并且确保模型采用了正确的信号。
该研究采用法国城市的航拍图像进行训练,通过 MBConv 模块提取特征图,经过全局平均池化层(GAP)和密集层计算出单个 p 值。由此,从二项式分布中得出每个社会经济阶层的概率,预测该地区居民社会经济地位的能力。
研究的图像数据主要基于三类公开数据集,提取了五个法国城市在社会经济和土地利用数据方面的完整数据及航空图像:
由国家地理信息研究所 (IGN) 提供的法国市政的航拍照片;
由法国国家统计和经济研究所 (INSEE) 提供的高分辨率的社会经济地图 (2019 年);
由欧洲环境署提供的欧盟城市地图集 (2012 年),包含欧盟 28 个国家和欧洲自由贸易区 22 个国家。
数据集均可在线访问:
https://geoservices.ign.fr/documentation/diffusion/telechargement-donnees-libres.html#ortho-hr-sous-licence-ouverte
https://www.insee.fr/fr/statistiques/4176290?sommaire=4176305
https://land.copernicus.eu/local/urban-atlas/urban-atlas-2012
巴黎某一区域内的数据采集样本:a. 遥感 / 航拍图像;b. 收入的空间分布;c. 功能的空间分布。
该研究的代码现已开放,可免费用于非商业用途:
https://doi.org/10.5281/zenodo.3906063
论文地址:
https://arxiv.org/abs/2004.04907
在研究初期,需要寻找一个最佳的影像空间分辨率以建立可用的算法模型,Abitbol & Karsai 在 CNN 模型上取得了不错的结果。但随着算法进一步被测试,Abitbol & Karsai 发现其往往是被一些与收入或社会经济地位并非密切相关的城市特征激活。例如,由于公共及商业场所的灯光明亮,经济发达的城市地区通常在夜晚具有较强的照明强度,但是模型优先考虑的是居民区的其他功能。
于是,他们开始怀疑这些模型在预测不同地区的收入水平时是否采用了相似的特征,以及这些特征与收入水平的相关性。
尽管针对卫星图像推断地区经济收入状况的深度学习模型不在少数,但大多数并不能解释其预测的背后过程。这很大程度上取决于卷积神经网络自身的技术特点——通过理论推导,以及梯度传播,去不断逼近局部最优解。但 Abitbol & Karsai 仍试图解释其模型的预测结果,以便更好地理解它是如何为每一幅图像推断出特定的收入。
为此,Abitbol & Karsai 采用热力图 Grad-CAM 对神经网络进行可视化,以研究模型的可解释性,即通过热力图的权重形式来展现,神经网络对图片的哪一部分激活值最大。
基于航拍图像(a),使用 Grad-CAM 计算出最贫困地区(b)和最富裕地区(c)的社会经济阶层的热力图;将热力图与航拍图进行叠加训练 CNN,得出城市功能区域的多边形图(d),计算出最贫穷地区(e)和最富裕地区(f)的标准化激活比率。( UA: urban area; DUF: discontinuous urban fabric)
通过将高分辨率的类判别激活图投射到原始地图上,并与土地利用数据叠加,以生成经验统计的特征,使模型更为准确地预测该地区在社会经济地位方面的土地利用类别。这一方案让社会经济地位的预测范围更加广泛,同时也精确地指出了预测城市环境的真实特征。此外,它还提供了不同的城市在城市拓扑结构和财富分配之间的关联模式。
该研究发现,在推测社会经济地位的过程中,CNN 模型忽略了土地利用和社会经济数据之间的现有相关性,而主要关注包含在居民区内的特征。这一发现为预测的实际应用引入了更多可解释性和参考,让政策的制定者和决策者不仅能够增进其模型内部运作模型的理解,同时也将为贫困地区的城市发展和城市规划带来更多启发。
尽管 CNN 已显示出收集地理社会经济数据的潜力,但该研究表明,其预测背后的过程存在不可靠可能,因此应进行进一步研究。接下来,该研究小组将会在预测模型的可解释性方面进行更多探索,使其能够更有效和可靠地执行。
Abitbol & Karsai 说道,「我们对于影响模型可预测和可解释程度的因素十分感兴趣,此外我们还将通过传统的视觉识别算法进行收入水平的预测,以验证 CNN 模型在不同地区的迁移能力以及进行高精度社会经济预测的准确性。」