微软亚洲研究院推出新冠数据分析网站COVID Insights

持续数月的新冠疫情一路肆虐、席卷全球,世界各地的科研人员都在为此奋战,希望通过最先进的技术逐步揭开新冠病毒的神秘面纱。近日,微软亚洲研究院的研究人员基于在计算生物学、数据分析等领域的专业知识和研究经验,构建了新冠数据分析网站 COVID Insights (covid.msra.cn),该网站以学术研究和科普为目的,希望透过数字表面,更深入、多角度地分析 COVID-19(2019冠状病毒病)相关数据。

COVID Insights 网站主要包含感染数据分析、基因组和蛋白质结构、研究趋势三大板块,以可视化和互动的方式直观展现了疫情在不同国家和地区的传播特性、引起疫情的病毒 SARS-CoV-2 的病毒学分析结果,以及全球最新的相关研究热点。网站使用的所有数据均来自约翰霍普金斯大学、美国疾病控制与预防中心、GISAID 等机构的官方发布。基于这些公开数据,研究员们利用先进的技术挖掘疫情数据背后隐藏的规律和洞察,为进一步拓展对疫情的思考提供有价值的参考。

哪两个地区的疫情发展最相似?

感染数据分析页面通过对 COVID-19 数据的深度分析,呈现了跨国家和地区间传播动态比较。例如,通过分析我们发现德国从2月27日到3月14日的数据趋势曲线与韩国从2月18日到3月5日的数据趋势曲线很相近。因此韩国在3月5日以后开展的各项疾控措施对3月中旬的德国来说可能具有更为精准的借鉴作用。

在这里,研究员们将 COVID-19 时间序列数据在低维欧式空间中进行表示。对于一个给定的地区和时间片段,在这个空间中使用一个向量来反映其数据的趋势。这样就可以有效地发现哪些国家或地区、在哪些时间段的数据发展相似,找到合适的参考对象。

此外,该页面基于四个不同地区的开源数据,为与感染相关的高风险活动提供了一个统一的数据分析视角,方便对比地区间传播数据的差异。例如,对法国来说,许多感染是通过“群众聚集”发生的,而对新加坡来说,“国际旅行”是造成感染的最主要原因。

由于各地区的数据差异较大,有效信息或展现在不同的尺度上,或隐含在冗长的病例通报中。研究员们将非结构化的病例描述映射到统一的高风险活动分布中进行可视化,很好地解决了这个挑战。对于高风险活动的归因分析,尤其是不同地区的不同归因结果,可以为预防感染提供个性化参考。

SARS-CoV-2 在全球哪些地区发生了变异?

COVID Insights 网站的“基因组和蛋白质结构”页面展示了 SARS-CoV-2 的最新病毒学分析结果。新型冠状病毒 SARS-CoV-2 演变至今,已发生很多处基因组变异,用户可以通过交互探究病毒序列中发生变异的氨基酸及其位置,该变异发生的地理位置以及相应的蛋白质结构。

研究员们从全球流感序列数据库 GISAID 上下载新型冠状病毒 SARS-CoV-2 基因组数据。然后,以病毒株 Wuhan-Hu-1(GenBank MN908947.3)作为参考序列,确定出各病毒序列中发生变异的氨基酸及其位置。对每一个存在变异的位置,研究员们通过计算熵显示该位置氨基酸的多样性及其在各地区的分布和时间线。

研究员们还将 SARS-CoV-2 病毒核酸序列转化成蛋白质序列,并将整个序列按照不同区域进行分割,最终呈现出蛋白质三维结构。此外,用户还可以看到 SARS-CoV-2 与包括 SARS、MERS 在内的四种冠状病毒的基因组比较分析,了解它们之间的异同。

关于疫情和病毒的最新研究热点有哪些?

在研究趋势页面,用户可以通过可视化信息了解当前新冠相关主题的热门论文和主题变化趋势。研究员们通过自动聚类技术,对于热词进行聚合形成词云,并且通过每周更新展示时间粒度上的变化趋势,希望可以给研究者们带来更多启示。

我们希望 COVID Insights 网站能够通过深度分析和挖掘疫情数据背后的洞察,为用户科学地理解疫情数据提供参考。未来,我们会通过该网站分享更多关于新冠病毒数据的深度洞察,为抗击疫情提供持续的支持。与此同时,我们也希望更多的 AI 研究者、数据科学家、计算生物学家加入到研究行列中来,共同加速科研进展,早日战胜疫情。
微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

产业数据分析微软亚洲研究院
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~