百度提出新冠肺炎高风险小区预警框架C-Watcher,论文入选AAAI 2021

论文名称:C-Watcher: A Framework for Early Detection of High-Risk Neighborhoods Ahead of COVID-19 Outbreak

论文链接:https://arxiv.org/abs/2012.12169

新型冠状病毒(COVID-19)仍在全球范围肆虐,并对人们的日常工作与生活产生了严重的影响。目前有效的非药物干预方案通常需要及时、准确地在城市中选择一些高风险区域进行重点疫情防控,例如出行限制甚至病例隔离。对于高风险区域的预测,现有的研究工作主要将已确诊病例的空间分布视为重要依据,其主要问题在于确诊病例的统计数据往往粒度过粗且通常具有滞后性,同时,不少新冠病毒携带者在确诊前就可能已经将病毒传播开了。

为了解决这些问题,百度的研究人员提出了一个名为C-Watcher的机器学习框架,旨在从新冠疫情重灾区传播到目标城市之前,预测出目标城市中每个社区的疫情感染风险。首先,C-Watcher从百度地图数据中抽取了多种特征来刻画城市中的每个住宅小区。其次,为了在疫情爆发前将有助于识别风险的知识及时迁移到目标城市,研究人员提出了一个创新性的对抗编码器框架,可以提取疫情重灾区城市和目标城市之间的共性特征,并从中学习高风险社区的普遍特点。利用该方法从城市相关的特征中抽取有用信息,可以实现在目标城市进行早期高风险小区的高效预测。基于国内COVID-19爆发早期的真实数据对C-Watcher进行评测后,实验结果表明C-Watcher能够在疫情早期有效地从大量住宅小区中成功筛查出高风险小区。该论文已入选人工智能领域顶级会议AAAI 2021,向国际同行分享科学抗疫最新研究成果。

图1 C-Watcher 的使用场景

小区特征构建

本文基于百度地图数据抽取特征来描述住宅小区的社会经济情况、人口特点以及时空迁徙情况,主要包括POI半径特征(POI Radius Features)、人口学特征(Demographic Features)和交通方式特征(Transportation-related Features)等。 这里以POI半径特征(POI Radius Features)为例做简要介绍。 

POI半径特征主要反映一个住宅小区周边的基础设施情况,因为小区住户感染新冠的风险与基础设施水平具有紧密的联系。如果周边基础设施不完备,住户往往需要到更远的地方以满足日常生活基本需求;同时,基础设施匮乏的小区往往物业管理不够科学与精细,在科学疫情防控力度上存在较大差异,这都可能增加新冠传播风险。作者构建了15种POI半径(如医院半径)来刻画小区的基础设施,每种POI半径均定义为该小区到某种类别POI(如医院)的最短直线距离,图2(a)中示意了POI半径特征的计算规则。

图2 POI半径特征及可视化

为了更直接地反映基础设施的完备情况,作者还构建了一个二值的基础设施完备水平指标,将半径1km内同时含有医院、学校、餐厅等多种基础生活设施的小区视为基础设施完备的小区,如图2(b)所示。

文中对新冠爆发初期武汉市高/低风险小区的数据进行统计后,发现新冠风险确实与基础设施存在较强的相关性。如图2(c)所示,大部分高风险小区的基础设施都不完备;与此相反,大部分低风险小区具有更为完备的基础设施。

方法

图3展示了在目标城市预测新冠高风险小区的城市迁移学习模型的总体框架。

图3 城市迁移学习模型总览

该模型是一个对抗编码器-解码器框架,能够提取疫情重灾区城市(epicenter city)和目标城市之间(target city)的共性特征,并依靠重灾区城市的大量数据,从中学习高风险社区的普遍特点,再将这种共性的知识迁移到疫情尚未爆发的目标城市,实现早期的高风险小区预测。模型主要有两部分组成:1)利用对抗学习框架提取城市间的共性特征;2)对表征空间进行约束,实现新冠高风险小区预测。

对抗学习框架

对抗学习框架由编码器(encoder)和鉴别器(discriminator)构成,如图4所示:

图4 对抗学习框架

Encoder将住宅小区的特征向量 n 作为输入,具体地记 n^E 为epicenter cities中小区的特征向量,n^T 为target city中小区的特征向量,输出编码后的表征向量。通常来说,因为编码后的表征向量来自于对不同城市的住宅小区的描述,它们的分布存在较大差异,这种差异使得encoder提取到高风险小区的特点可能仅适用于epicenter city,这阻碍了模型将epicenter cities中学到的经验迁移到target city。

为了解决这个问题,作者引入了discriminator来缩小编码后表征向量在分布上的差异。Discriminator是一个分类器,它的作用是从Encoder输出的表征中区分出样本来自epicenter cities还是target city,即把编码后的表征向量作为输入,并完成一个二分类任务,将来自于epicenter cities的编码表征向量,和来自于target city的编码表征向量判定为不同的两类。相反的是,encoder学习来自两个不同城市样本的共性特征,让discriminator难以正确分类。

表征空间约束

在Adversarial Learning的框架中,Encoder仅仅能够学到epicenter cities和target city中小区样本的共性特征,为了提高新冠风险的识别能力,作者引入图5中的模块对表征空间进行约束,主要包括特征重构和新冠高风险小区识别分类两部分。

图5 表征空间约束示

特征重构部分包括Encoder以及两个Decoder,两个Decoder分别用于epicenter cities和target city中小区特征的重构。将Encoder输出的表征向量输入Decoder,得到解码后的表征向量,利用重构损失函数优化Encoder和Decoder,使得Decoder能够从编码后的表征中恢复出原始输入,以保证Encoder学习到的表征仍然具有描述一个小区的信息,而不是单纯地能够在epicenter cities和target city中相似。

高风险小区识别分类的部分则有Encoder和Classifier组成。Classifier将epicenter cities小区的编码表征向量作为输入,利用epicenter cities中大量有标记样本,让Encoder从中提取能够判断新冠风险的特征。

“Reference city”验证机制

由于C-Watcher的设计是为了在没有爆发疫情的目标城市进行高风险小区的早期预测,为了避免将目标城市高风险小区的先验信息引入模型的超参数中,作者提出了“reference city”验证机制,为模型选择合适的超参数。C-Watcher使用epicenter city的数据训练模型,并将reference city的真值数据当作验证集来选择模型的超参数。在本文中,reference city是按照距离target city最近的城市作为标准来选取的。图6对该验证机制作了简单介绍。

图6 “Reference city“验证机制

实验分析

新冠高风险小区早期预测

作者收集了国内新冠肺炎爆发初期16个城市的高风险小区数据对C-Watcher进行测试,其中包含重灾区武汉市,5个参考城市和10个目标城市。C-Watcher在目标城市上的预测性能远好于不采用城市迁移学习的机器学习模型。

表1 目标城市高风险小区预测性能对比

特征重要性分析

作者还采用Lasso Logistic Regression的方法,以各个特征系数的绝对值为依据,筛选出最重要的20个特征,如图7所示。

图7 Lasso系数最大的20个特征

从中我们可以获得一些对新冠疫情防控具有指导意义的信息。比如,实验结果表明,在POI半径特征中,除了二值的基础生活设施指数特征(P: PFLF & P: PRLF)与新冠风险显著相关以外,距火车站远(P: RTS)的住宅小区风险较低。

总结

本文提出了一个识别城市中新冠高风险小区的框架C-Watcher,它基于百度地图数据提取了大量描述住宅小区的社会经济情况、人口特点以及时空迁徙情况等有助于识别新冠风险的特征,采用对抗学习的框架从重灾区学习高风险小区的特点,并将这些知识迁移到未爆发疫情的目标城市,实现了在早期阶段对潜在新冠高风险小区进行预测。

理论
1
暂无评论
暂无评论~