如何打破疫情防控「生命-经济-隐私」三重困境?清华、麦吉尔研究者提出「双目标强化学习流行病控制元」

采用严格的防疫政策控制疫情,还是采取宽松的防疫政策以保护经济?这成为了当前疫情背景下社会讨论的热点话题。与此同时,利用个人数据进行接触者追踪也引起了人们对侵犯隐私的担忧。在这个问题上,研究者们正在利用强化学习来提供更优的解决方案。

针对压制疫情、保护经济、保护隐私的三难困境,清华大学和麦吉尔大学的研究者提出了 「双目标强化学习流行病控制元」(DURLECA),利用图神经网络(GNN)和强化学习(RL)动态控制城市内部不同社区间的交通流量。DURLECA 能在不需要隐私数据的情况下,定位、控制、减少高风险移动,从而在最大化保留经济活动的同时有效控制疫情。论文已发表在 KDD’20 针对 COVID-19 的专题征稿中。

论文地址:http://arxiv.org/abs/2008.01257

代码地址:https://github.com/anyleopeace/DURLECA

基于北京真实数据的实验表明,即使在疫情发生 20 天后才进行干预,DURLECA 在防控中依然能够保留 76% 的城市交通,同时将医院负载峰值控制在 1.4 每千人以下,这远低于大多数国家地区的医疗保健能力上限 [病床密度统计:美国 2.9‰,中国 4.2‰,日本 13.4‰。数据来源:https://www.indexmundi.com/g/r.aspx?v=2227&l=zh]

同时,没有一个城市社区会遭受长期封锁。这能满足绝大多数的经济需求。和 DURLECA 相比,专家策略要么会因为太保守而过于抑制交通,要么会因为太宽松而导致疫情大爆发。

视频地址(英文):https://www.bilibili.com/video/BV1wV411S7sm/

视频地址(中文):https://www.bilibili.com/video/BV1Ja4y177Kr/

研究背景:疫情防控「生命 - 经济 - 隐私」三重困境

疫情防控的关键在于通过限制感染人群的移动和其与其他人群的接触,切断病毒的传播途径。然而,现实防控中往往存在一个生命 - 经济 - 隐私的三重困境。

大部分地区采取的封城、解禁策略,要么会因为过于严苛损害城市经济,要么会因过于宽松无法成功控制疫情。部分地区利用个人数据,追踪并隔离确诊病例的密切接触者;这种策略在疫情初期虽然有效,但也引起了人们对侵犯隐私的担忧;此外,很多地区已经进入了疫情的社区传播阶段,存在大量的无症状感染者,因此将无法追踪所有的接触者,从而无法控制住疫情传播。

社会迫切需要一种能够解决「生命 - 经济 - 隐私」三重困境的防疫政策,在不侵犯隐私的前提下,压制疫情并尽量多地保留经济活动。

研究者分析认为,这样的防疫政策是存在的。疫情中,真正的感染人群只占总人口的一小部分,因此只需要在不利用隐私数据的情况下,定位并限制高风险人群及其移动,就能在只限制一小部分人群的情况下,保留大部分人群的正常经济活动需求。

问题建模:在无症状患者不可见的情况下,定位并控制城市社区间的高风险交通流量

1. 交通控制策略建模

为了达成上述策略目标,研究者在当前地区「红绿码」的基础上,提出了一种新的抗疫策略——为每一对城市社区之间的交通分配「配额」。该配额用于决定批准社区间多少百分比的交通需求,其不再依赖于个人数据,而是根据每个社区自身疫情统计数据以及对社区间的交通统计数据得出。通过对高风险的交通流量分配较低的「配额」,对低风险的交通流量分配较多的「配额」,该策略能有效地降低疫情传播并保留尽量多的经济活动。

2. 疫情建模

为了在更严格、更具有现实意义的情境下解决问题,研究者基于传统流行病模型 SIR 模型提出了 SIHR 模型进行疫情模拟。在 SIHR 模型中,施策者需要在看不见无症状感染者的情况下做出决策。

3. 对解决「生命 - 经济」困境的建模

在上述的交通建模和疫情建模基础上,研究者将保护经济、拯救生命定义了一个多目标的顺序控制问题(sequential control problem):

公式(10)代表对交通和疫情的建模,公式(11)代表对将保护经济、压制疫情的双目标建模。具体优化目标将在后文定义。

策略搜索:DURLECA

然而,求解上述多目标的顺序控制问题非常困难,存在三方面挑战:

1)大量、复杂、时变的现代交通使我们很难定位真正高风险的移动

2)首先,优化目标需要反应现实世界的 constraint:有限的医疗资源与人们对交通封锁有限的忍耐。其次,优化目标需要可解释,这样政府才便于因地适宜地使用它。最后,优化目标要能够高效地引导训练。

3)多目标优化容易陷入局部最优。

这个问题在疫情控制中尤为明显,因为疫情中的感染人数存在指数增长的特性,在探索策略空间时,对当前策略的微小的扰动都可能带来未来感染人数急剧增加。因此,策略搜索会有极大的 incentive 去规避任何可能导致疫情增长的因素,从而抑制了对策略空间的探索,极易导致搜索陷入局部最优(常常是过于保守的封城策略)。

为了解决上述挑战,并求得最优疫情控制策略,研究者提出了一个以图神经网络为基础的强化学习控制元,并命名为 DUal-objective Reinforcement-Learning Epidemic Control Agent (DURLECA)。在每一个 time step,GNN 根据统计到的地区间交通流量(OD 数据)和疫情统计数据,估计交通流中的疫情风险;基于 DDPG 的 RL Agent 在估计风险的基础上做出决策,为每一对城市地区间的交通流量分配「配额」。

针对第一个挑战:提出 Flow-GNN 用于描述疾病传播动态

研究者选用 GNN 去估算交通流中的疫情风险,因为城市内交通可以被看做一张图上的流。然而,已有的 GNN 结构并不是针对疾病传播设计的,无法捕捉交通中的疾病传播信息。因此,论文作者提出了一个新的 GNN 结构用于描述疾病传播动态:

具体说来,Flow-GNN 的每一层 layer 都描述了一个 time step 中不同健康状态的人群的移动、新感染的发生。

针对第二个挑战:精心设计目标函数,指数惩罚医院负载量与社区封锁时长

为了在目标函数中反应现实中有限的医疗资源与人们对交通封锁有限的忍耐,研究者设计目标函数指数增长地惩罚医院的负荷量和每个城市社区的封锁时间。因此,无论是医院负荷超过医疗系统负载能力,还是城市任一社区被封锁过长时间,都会导致目标函数收到很大惩罚。

针对第三个挑战:结合专家知识,引导 Agent 高效探索策略空间

研究者设计了两个 RL 的探索策略来提升探索的效率并解决局部最优的问题:

1)在 RL 训练前期,结合伪专家策略做决策

论文作者根据当前的封城策略设计了伪专家策略,训练初期,RL agent 将有一定几率直接采用伪专家策略进行分配「配额」,这能让训练初期的 Agent 高效地向好的策略方向探索。

2)利用专家知识,在策略空间中划去极端区,禁止 agent 探索

为了避免过多遭遇极端差的情况(例如疫情大爆发)而被迫采用过于保守的策略,论文作者规定 RL Agent 在遇到极端差情况时会受到极大的惩罚,并将提前终止整个 episode。这能让 RL Agent 提高探索效率并避免陷入局部最优。

实验结果

研究者在采集自北京的真实 OD 数据上进行了测试,并根据当前现实世界的专家策略设计了 baseline 与 DUELCA 进行对比。DURLECA 给出了非常复杂但是有效的抗疫策略,下图呈现了 DURLECA 控制下每个社区的交通流量变化:

即使在疫情发生 20 天后才进行干预,DURLECA 在防控中依然能够保留 76% 的城市交通,同时将医院负载峰值控制在 1.4 每千人以下,这远低于大多数国家地区的医疗保健能力上限。同时,没有一个城市局部社区会遭受长期封锁。这能满足绝大多数的经济需求。和 DURLECA 相比,专家策略要么会因为太保守而过于抑制交通,要么会因为太宽松而导致疫情大爆发。

除此之外,研究者还测试并证明了 DURLECA 可以适应不同疾病、不同医疗负载能力、不同交通封锁承受能力。

理论强化学习图神经网络麦吉尔大学新冠疫情清华大学
7
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

策略搜索技术

策略搜索是强化学习中的一个子领域,其重点是为给定的策略找到合适的表示参数。它非常适合机器人学,因为它可以处理高维状态和动作空间这类机器人学习中的主要挑战。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

多目标优化技术

多目标优化是多准则决策的一个领域,它是涉及多个目标函数同时优化的数学问题。多目标优化已经应用于许多科学领域,包括工程、经济和物流,其中需要在两个或多个相互冲突的目标之间进行权衡的情况下作出最优决策。分别涉及两个和三个目标的多目标优化问题的例子有:在购买汽车时降低成本,同时使舒适性最大化;在使车辆的燃料消耗和污染物排放最小化的同时将性能最大化。

推荐文章
暂无评论
暂无评论~