Esther Shein作者吴金笛、龚力校对黄继彦编辑王晓颖翻译

可预测COVID-19病例峰值的新算法

本文介绍了新的COVID-19病例峰值预测算法。预警系统的模型使用的数据是来源于Twitter,Google 实验和其他数据库的智能手机移动数据的实时数据。

关于何时复工以及什么行业可以复工的决定就像是一场大型俄罗斯轮盘赌博游戏,对于新冠病毒确诊病例激增的州,例如佛罗里达州,得克萨斯州和加利福尼亚州,复工计划将适得其反。

但是一个可以提早两周预测峰值到来的COVID-19新型预警模型在科技界引起了赞誉。这个模型为官方提供了时间及时地采取有效的遏制措施。

在上周发表于arXiv.org 的一篇文章(https://arxiv.org/abs/2007.00756)里,一个国际科技团队展示了一个可以在病例数开始增加的14天或更久之前标记危险。这个系统使用了来自Twitter,Google搜索以及其他数据流的智能手机移动性数据中的实时数据。

资料链接:

回到工作:疫情后的新常规会是什么样子(免费PDF)(TechRepublic):

https://www.techrepublic.com/resource-library/whitepapers/return-to-work-what-the-new-normal-will-look-like-post-pandemic-free-pdf/

研究员写到:“我们通过一个简单的能近乎实时地计算指数增长或衰减概率的贝叶斯模型来预测每一个数据流可能发生巨大变化的瞬间。”

这个团队分析了来自社交网络发布的、Google搜索里以及匿名智能手机移动数据中与新冠病毒相关的实时活动和Kinsa金沙智能温度计读数。根据文章,“这比过去6个月全美国COVID-19确诊病例的可比增长早了大约两到三周,比全美国COVID-19死亡病例可比增长早了三到四周。”

Lian Jye Su,一位在ABI研究所的首要研究员认为这个方法可能非常有效。

Su说道:“例如在新加坡,政府使用合约追踪,温度调控和匿名移动数据的组合来掌控病毒的传播,当在现有集群数量依旧很高的时候,他们最近复工并且没有出现新集群。所有新社区案例都被当局迅速采取行动以遏制病毒蔓延。

资料链接:

来自COVID-19 测绘建模项目的3大数据学习(TechRepublic):

https://www.techrepublic.com/article/3-big-data-lessons-from-a-covid-19-mapping-and-modeling-project/

这些措施非常有效但仅是在组合使用的情况下,包括配合一些类似戴口罩和勤洗手的步骤,他补充道。

Daniel Elman,一位 Nucleus 研究公司的资深分析师,认为这个模型让人印象深刻地提供了实现临床环境前的可视性。他说,对于搜索“流感”或者“COVID”的人,“这个模型能够结合人们正在做的事情,这样你有了洞察力而我们现在有了数据。”他特别指出,如果没有人去看医生那么将不会有任何数据点。

“所以在你担心的一到两周内...现在他们可以更好的去考虑这些案例并且把他们结合到模型中——不一定是完美的但比原来更好。”

研究员们选择的数据资源全部都是公共记录并且容易获取,这更有价值,Elman补充道。

“这个模型可以被继续优化,而且他们可以增加新的数据来保持模型更新”,他解释道。“数据资源越多愈好。当你不得不匿名化数据并且开始购买这个模型,情况会变得复杂,这是一个很棒的方法并且他们可以让模型快速传播到世界。”

首席研究员之一的Mauricio Santillana教授告诉纽约时报,“在大多数传染病模型中,你根据预先设定的假设来预测不同场景...不同的是,我们的方法能够结合行为的即时变化并做出反应。”

Su说这让他回想到2000年代研发的谷歌流感传染模型。他特别指出,一个谷歌模型失败的原因是“由于人类行为的改变和缺少对目前变量的判断从而使假设不再成立导致的模型衰变”。“在COVID-19仍然是新型的且研究员们使用的数据是同时有着高相关性和多样性的情况下...这个模型可以适应并且针对即时行为变化做出反应。”

但是Su 补充了他的疑惑,关于这个模型是否考虑了不同程度的非药物干扰(NPI),比如佩戴口罩和勤洗手在城市、郊区甚至社区层面的命令,“因为这些对于病毒传播也有一定的影响”。

Elman 说他希望研究员们可以进一步完善他们的数据集并且纳入消费者的购买行为。他解释说,“我们试着关注任何人类的行为变化并且COVID 是一个足以带来不少变化的大事情”,这可以加入概率测度。

研究员们使用的数据流与一个在东北大学基于Times时报中人员在社区的流动和交互基础为基础开发的精密预测模型。

团队测试了数据流的流行性预测值,并观察这些预测值,在三月四月的每个州里和确诊数及死亡人数的相关性。

在纽约的三月中旬确诊数爆发前,推特经历了时长超过一周的大幅增加的与COVID相关的发布量,Times 时报特别指出,并且相关的谷歌搜索量和Kinsa金沙量度也出现数日飙升。

文章称,现在,该算法预测,尽管内布拉斯加州和新罕布什尔州的病例数持平,但未来几周,它们的病例数可能会上升。

虽然Su 提到由于他不清楚这个模型是如何被训练和开发的所以他不能评论其准确性,“我的假设是,如果流动性水平仍然很高并且这两个州依然缺乏NPI,那么确诊数将会有增长。这是因为即使是严格要求在家办公和佩戴口罩的那些州在开始复工学校和商务以后都曾经出现了COVID-19的第二波增长。”

原文标题:

A new predictive algorithm aims to forecast COVID-19 case spikes

原文链接:

https://www.techrepublic.com/article/a-new-predictive-algorithm-aims-to-forecast-covid-19-case-spikes/

译者简介

王晓颖( Shirley),UIUC毕业,目前在Coursera上自学Python课程,对AI,Python,数据分析以及Matplotlib等等都很感兴趣,希望能够认识更多厉害的人,保持学习的能力,接触新鲜的事物并从中学习,成为更好的自己。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

工程算法COVID-19
暂无评论
暂无评论~