开放迄今最大冠状病毒文献集,微软、白宫等联合全球AI力量启动新冠病毒数据集挑战赛

此次挑战赛主要希望吸引全球医学和机器学习研究社区,通过挖掘文本数据(NLP)以获得有助于对抗冠状病毒的见解,其中人工智能技术最主要的应用体现在整合药物大数据,深度赋能药物研发全过程,具体涉及药靶全景报告、个性化细胞疗法、小分子虚拟筛选等。

这与《麻省理工科技评论》2020 年度「十大突破性技术」预测中的「人工智能发现药物分子」类似。
在国内领域,燧坤智能是其中代表性公司之一,主要目前利用人工智能算法发掘疾病作用靶点、发现已知药物新适应症、提升新药筛选效率、提高大分子产量等的 AI+生物科技公司。
燧坤智能 CEO 曾亥年曾向机器之心表示,人工智能算法系统性地整合了疾病、靶点、药物等多个维度上的海量数据,可以实现对药物-靶点作用的全景刻画。

撰文 | 凡雪
编辑 | 四月

近日,艾伦(Allen)人工智能研究所、微软研究院、Chan Zuckerberg Initiative、乔治敦大学安全与新兴技术中心以及美国国立卫生研究院国家医学图书馆合作,与美国白宫科学技术办公室(OSTP)合作创建 COVID-19 开放研究数据集挑战赛(CORD-19)。
数据集包括超 29,000 篇来自世界各地的冠状病毒类学术文章,其中包括 13,000 余篇文章全文,目前这些论文被托管在 Kaggle 网站上。据 Kaggle 官网显示,CORD-19 数据集代表了迄今为止用于数据挖掘的最广泛的冠状病毒文献集(机器可读),使全球的 AI 研究社区有机会应用文本和数据挖掘方法来查找此内容中的问题的答案,并在此内容之间建立见解,以支持全球正在进行的 COVID-19 响应工作。
艾伦人工智能研究所成立于 2014 年,致力于研究和设计人工智能,并通过构建人工智能系统与推理、学习和阅读能力实现科学突破。
「Chan Zuckerberg Initiative」(「扎克伯格—陈计划」,以下简称「CZI」),2015 年 12 月由扎克伯格和妻子普莉希拉二人共同成立的一家慈善机构,两人承诺将其所持有的 99% 的 Facebook 股份(价值约 450 亿美元)捐出,用于开发人类潜能和促进平等。
Kaggle 是联合创始人兼 CEO 安东尼·高德布卢姆 2010 年在墨尔本创立,是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。
「我们创建此开放数据集的目标以及针对冠状病毒的问答挑战是激发全球 AI 社区,创建可帮助科学家掌握数千篇文章的工具,以使他们能够开发解决 COVID-19 的方法,」微软首席科学官埃里克·霍维茨(Eric Horvitz)在电话中说道。
「随着每年有 100 万种新出版物发表在所有生物医学领域,人工智能将成为科学家越来越重要的助手。」

 一  白宫会议后的响应,开放 29000 篇学术论文

3 月 15 日,据《华尔街日报》报道,美国首席技术官 Michael Kratsios 与 Facebook 、Google、微软亚马逊等科技巨头公司开展了会议,就美国公民如何能够在不看医生的情况下诊断新冠病毒,企业该如何在优先事项上与美国疾控中心合作等话题展开讨论。

左为 Michael Kratsios

此外,美国政府还与科技公司们成立了一个特别工作组——「科技和研究特别工作组」。小组成员中的科技公司可以帮助确定和解决病毒传播相关的诸多问题,包括病毒传播的速度有多快,预测需要的病床数量等。有知情人士表示,成立工作组的行动在两周前就已开始筹备,由于疫情加重,加快了筹备速度。
官方透露的会议细节并不多,但具体内容却可以从最近白宫及各大科技公司的布局中可见一斑。
3 月 15 日,Google CEO Sundar Pichai 发布官方声明,宣布将和美国政府合作开发一个网站,致力于 COVID-19 教育,预防和资源分享,信源主要来自世界卫生组织和疾病防控中心,网站初始版本将于 3 月 16 日发布。
同一天,微软 Bing 团队推出全球冠状病毒追踪器(COVID-19 Tracker),用于跟踪全球范围内的新冠病毒疫情变化。

COVID-19 Tracker
3 月 16 日,白宫科学技术政策办公室要求研究人员使用人工智能技术分析约 29,000 篇学术文章,以回答有关冠状病毒的关键问题,美国首席技术官 Michael Kratsios 表示,希望计算机能够更快地扫描研究并发现人类可能会错过的内容。
美国政府官员以及美国科技公司表示,在 CORD-19 数据集未发布之前,过去几天内主要致力于获得学术出版公司和其他公司的法律许可,以使冠状病毒论文广泛获得。
目前,这项已经公布的 COVID-19 开放研究数据集,是微软研究院,艾伦 AI 研究所,美国国立卫生研究院(NIH)的国家医学图书馆,白宫科学技术办公室(OSTP)等的工作成果,据 Michael Kratsios 介绍,数据库中仅包含大约 13,000 篇冠状病毒文章,其格式使软件易于分析,其他 16,000 篇是文章的部分文本如摘要,数据集供全球研究团体使用。
数据库旨在动员研究人员应用自然语言处理方面的最新进展,以产生新的见识来支持与这种传染病的斗争。随着新研究发表在同行评审的出版物以及诸如 bioRxiv,medRxiv 等档案服务中,该语料库将每周更新,目前,数据库和研究人员的论文被托管在 Kaggle 网站上。

 二  Kaggle 开启挑战赛,开放数据集下的共同战「疫」

除了公开数据集,美国白宫、艾伦 AI 研究所、微软研究院还共同发起了 COVID-19 开放研究数据集挑战赛,并由 Kaggle 主持,旨在激发社区使用 CORD-19 来寻找有关 COVID-19 大流行的新见解,包括该病毒的自然史,传播和诊断,先前流行病学研究的经验教训等。
此次面向 COVID-19 开放研究数据集挑战赛包括十大任务,具体从潜在风险因素、环境稳定性、样本任务、病毒遗传学、疫苗和特效药等方向展开。
这些关键问题来自美国国家科学院工程院和医学院,新发传染病与 21 世纪卫生威胁常设委员会等的研究主题,以及世界卫生组织针对 COVID-19 的研发蓝图。
据了解,Kaggle 为获奖者提供了每项任务 1,000 美金的奖励,获奖者的提交被认为最符合评估标准,优胜者可以选择以 COVID-19 救济/研究工作的慈善捐款或现金形式获得此奖项。据 Kaggle 显示,提交内容将分两轮进行评估:第 1 轮提交截止日期为世界标准时间 2020 年 4 月 16 日晚上 11:59,第 2 轮,提交截止日期为世界标准时间 2020 年 6 月 16 日晚上 11:59。
截至发稿前,已有一位在此任务挑战赛中赢得 1,000 美金,根据其资料显示,其身份为 Google 产品经理。
任务列表中许多问题都适合进行文本挖掘,开发文本挖掘工具来提供有关问题的见解,文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法,文本挖掘是一个多学科混杂的领域,涵盖多种技术包括信息抽取信息检索机器学习自然语言处理等。
据悉此次挑战赛主要希望吸引全球医学和机器学习研究社区,通过挖掘文本数据(NLP)以获得有助于对抗冠状病毒的见解,其中人工智能技术最主要的应用体现在整合药物大数据,深度赋能药物研发全过程,具体涉及药靶全景报告、个性化细胞疗法、小分子虚拟筛选等。
这与《麻省理工科技评论》2020 年度「十大突破性技术」预测中的「人工智能发现药物分子」类似。
在国内领域,燧坤智能是其中代表性公司之一,主要目前利用人工智能算法发掘疾病作用靶点、发现已知药物新适应症、提升新药筛选效率、提高大分子产量等的 AI+生物科技公司。
燧坤智能 CEO 曾亥年曾向机器之心表示,从茫茫论文文献中搜索出所需信息,首先需要设置关键词如冠状病毒、SARS 等,根据关键词进行信息检索,而后需要运用自然语言处理,对文献中与关键词相对应的动词如「阻止复制」、「抑制」、「杀伤」进行理解和筛选。通过一系列智能策略以加速药物重定向过程,从而提供老药新用的一体化解决方案。
曾亥年表示,人工智能算法系统性地整合了疾病、靶点、药物等多个维度上的海量数据,可以实现对药物-靶点作用的全景刻画。
随着疫情逐渐向国外蔓延,人工智能也在发挥越来越大的价值,开放论文数据集,运用技术合力战疫才能帮助我们跑在病毒前面,挽救危亡生命。
产业通用人工智能数据科学大数据技术微软AI
相关数据
Amazon机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~