开放知识图谱来源林亦霖校对王菁 编辑

OpenKG发布多个新冠病毒相关开放知识图谱(附链接)

OpenKG 发布开放知识图谱助力研究新冠病毒情况。

2019 年 12 月 31 日,武汉市发现若干例肺炎病例,该病毒与任何已知病毒均不相符。一周后,有关部门确认了这一新型病毒的发现,暂时命名为 2019 新型冠状病毒(2019-nCoV,以下简称新冠)。随着疫情爆发以来,防控等级不断提升,越来越多的人投入到这场战“疫”中。他们奋斗在抵抗新冠病毒的第一线,甚至为之奉献生命;他们迅速投入到新冠病毒的研究分析中,不断发布新冠病毒的研究结果,让我们对病毒有了更清晰准确的认识;他们积极组织捐赠救灾防护物资,持续为重灾区输送“弹药”;他们持续不断地分享科普新冠病毒的方方面面,警示民众打击谣言......

在这段非常时期,OpenKG 也积极投入到这场战“疫”中,联合来自同济大学、浙江大学、东南大学、海乂知信息科技、文因互联、小米人工智能实验室、武汉科技大学、复旦大学、海知智能的知识图谱技术专家联合构建新冠病毒相关知识图谱,并采用 CC-by SA 协议,完全免费开放,供大家下载使用。目前我们已经发布了“新冠百科图谱 1.0 版”“新冠科研图谱 1.0 版”“新冠临床图谱 1.0 版”“新冠英雄图谱 1.0 版” "新冠热点事件图谱 1.0 版"。这些图谱都采用统一的命名规范和语义格式,后续还将完成跨数据集的关联与融合。我们还发布了“新冠开放知识图谱·数据规范”,将提供各个图谱的 Schema 文件供大家重用。此外,我们未来还将发布“新冠防控图谱”“新冠物资图谱”“新冠产业图谱”。持续更新,敬请关注!

1. 新冠百科图谱

图谱链接:

http://www.openkg.cn/dataset/2019-ncov-baike

百科是基础,所以我们最先发布了百科的图谱 。

1.1 简介以及潜在应用

新冠百科图谱包括病毒、细菌、流行病、传染病等相关实体。图谱以病毒、细菌为主体,扩展了治疗,疾病等相关内容,通过了这些概念的百科知识,形成了新冠百科图谱。

潜在应用:面向新冠相关术语的语义检索、智能问答,并可用于新冠相关文档的智能搜索和推荐。

后续工作中,将从百度百科,互动百科,中文维基百科,医学百科中进一步挖掘病毒,细菌,疾病,医学之间的关系。采用基于本体的信息抽取技术,扩充实体的属性信息。同时,完成与zhishi.me等通用知识图谱的链接。

1.2 数据来源与规模

  • 数据来源

当前数据从百科抽取,以 infobox 作为主要数据源;

  • 百度百科:通过类别获取数据
  • 互动百科:通过类别获取数据
  • 中文维基百科:通过类别获取数据

目前选择的实体类别限定于:病毒,疾病,细菌。

  • 规模
  • 百度百科:实例2617个,三元组14411个
  • 互动百科:实例1626个,三元组10980个,类别48个,上下位关系49个
  • 中文维基百科:实例765个,三元组10053个,类别213个,上下位关系229个

1.3 可视化样例      2. 新冠科研图谱

图谱链接:

http://www.openkg.cn/dataset/2019-ncov-research

2.1 简介

VirusNetwork 图谱搜集、整理、关联与新冠病毒相关的科研基础数据和科研文献,为后续进一步研究提供数据支撑。

数据集来源于 NCBI(美国国家生物技术信息中心网站)中的 Taxonomy板块,从其中 Viruses “超界”开始,逐层爬取构建数据集。涉及的概念主要是病毒的家族层级,比如病毒的属、种、目等,即从顶层到分支、枝叶,构建出一颗病毒的家族树。

计划在后续工作中,集成NCBI中的部分其他可用数据集,如病毒的详细数据(包含:基因、蛋白、宿主、感染症状、FDA批准用药物等)。并且针对新型冠状病毒所属科、属、种进行针对性的数据补充。

2.2 潜在应用

在后续对于其他属性进行补充与关联、扩充图谱之后,数据集可用于尝试以下应用:

(1)预测新病毒的生物学分类,新物种发现

(2)预测病毒变异性

(3)预测病毒热稳定性

(4)预测病毒的易感群体、宿主

(5)预测病毒的致病部位

(6)预测病毒可导致的症状,可缓解症状的药物

(7)潜在治疗的药物,如老药新用

(8)预测病毒的传播途径、传播种类

2.3 数据 schema       2.4 图谱可视化

parent关系用于连接Resource之间的层级关系,比如2019-nCoV 病毒在其家族树种的上层结点是unclassified Betacoronavirus。通过parent关系可向上遍历家族树。

species、genus、family等关系用于直接连接病毒与其属类别、种类别结点。这样即可不通过遍历家族树直接找到其属。

broader用于连接不同的家族概念,比如Genus属就是Species种的一个更宽泛的家族概念。

虚线中的关系和概念是未来工作中会添加的关系和连接的实体类型。比如病毒的基因实体、蛋白质实体、宿主实体等等。

2.5 schema 简要说明及示例

2.6 数据来源及规模

数据来源:NCBI(美国国家生物技术信息中心网站)中的Taxonomy板块

  • https://www.ncbi.nlm.nih.gov/Taxonomy

数据规模:

  • 概念:16个
  • 实例:205494个
  • 对象属性:12个
  • 三元组数目:1934206个

3. 新冠临床图谱

图谱链接:

http://www.openkg.cn/dataset/2019-ncov-clinic

3.1 简介以及潜在应用

临床图谱从目前已有的规范文件入手,基于诊疗规范(流行病学+症状+实验室指标+治疗)、研究进展(测序、药物开发、疫苗)、发病统计(丁香园那个), 将研究进展与科研相关联。

图谱以新冠肺炎为核心延展至病毒、治疗方案、症状、方剂等各类概念,形成新冠临床知识图谱,可基于该图谱进行知识问答。       示例问题:

问:疑似病例的诊断标准有哪些?

答:发病前14天内有武汉市及周边地区,或其他有病例报告社区的旅行史或居住史;发病前14天内曾接触过来自武汉市及周边地区,或来自有病例报告社区的发热或有呼吸道症状的患者;聚集性发病;与新型冠状病毒感染者有接触史。新型冠状病毒感染者是指病原核酸检测阳性者。

问:新冠肺炎病情较轻该采用什么治疗方案?

答:卧床休息加强支持治疗、根据病情监测指标、氧疗措施、抗病毒治疗

问:抗病毒治疗治疗药物有哪些?

答:α-干扰素、灭菌注射用水、洛匹那韦、利托那韦、利巴韦林

3.2 数据 schema  3.3 数据来源与规模

数据来源:

  • 《新型冠状病毒感染的肺炎诊疗方案》
  • Wiki百科
  • 中医药知识服务平台 http://www.tcmkb.cn/ 
  • 医疗器械分类目录 https://db.yaozh.com/fenleimulu?from=www&position=index_hotdb 
  • https://github.com/liuhuanyong/QASystemOnMedicalKG

数据规模:

  • 概念:41个
  • 实例:184个
  • 数值属性:9个
  • 对象属性:203个

3.4 可视化样例  

 4. 新冠英雄图谱

图谱链接:

http://www.openkg.cn/dataset/2019-ncov-hero

4.1 简介以及潜在应用

新冠英雄图谱包括了医疗专家组、因公殉职英雄、武汉当地和全国各地的意见领袖等,涉及生平事迹和基本属性,并与新冠百科、新冠科研、新冠临床等图谱中的一些概念或实体关联。

图谱以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念,形成新冠英雄知识图谱,可基于图谱进行英雄人物动态展示。 

4.2 数据 schema       4.3 数据来源与规模

  • 数据来源:百度百科、微信公众号、知网、澎湃新闻
  • 规模
    • 概念:20 个
    • 实例:439 个
    • 数值属性:50 个
    • 对象属性:463 个

目前图谱中共包含 30 人个人物,其中包括 5 位专家人员,25 位因公殉职人员,具体名单如下:


专家因公殉职英雄
人物名单钟南山刘大庆张新忠崔嵬
张文宏曾文聪于正洲邓少华
李兰娟何建华梁医生黄汉明
张定宇苏莱曼·巴马丁毛样洪姜娜
张继先宋英杰陈在华蒋金波

胡锋程建阳李弦

梁武东马承武孙训祥

尹祖川李文亮章良志

张辉

总计
(人)
525


4.4 可视化样例 

5. 新冠热点事件图谱

图谱链接:

http://www.openkg.cn/dataset/2019-ncov-event


5.1 简介以及潜在应用

新冠热点事件图谱包含了疫情发生以来一系列的重大事件的知识,事件之间遵循顺承关系,从发生时间,信息来源,标题,事件内容简介等各个维度来揭示疫情。和上面的新冠百科、新冠科研、新冠临床、新冠防控、新冠英雄等图谱均能建立关联,后续版本还会对事件简介中的非结构化内容进行语义标注和实体链接。

支持对新型冠状病毒的事件在时间上的正向和反向索引。并提供系列事件发展脉络的枚举。支持热点事件的查证溯源。和区块链技术结合可具备对事件的存真鉴伪的功能。


5.2 数据schema

Schema简要说明及示例

5.3 数据来源与规模

数据来源:

人民日报http://activity.peopleapp.com/broadcast/?from=timeline
丁香医生https://ncov.dxy.cn/ncovh5/view/pneumonia
腾讯https://news.qq.com/zt2020/page/feiyan.htm
新浪微博https://m.weibo.cn

数据规模:

  • 概念:3个
  • 实例:50个
  • 对象属性:5个


5.4 图谱可视化

点击阅读原文获取新冠开放知识图谱:

http://www.openkg.cn/dataset


特别鸣谢

总体协调人

王昊奋(同济大学设计创意学院)

陈华钧 (浙江大学计算机学院)

漆桂林(东南大学计算机学院)

1. 新冠百科图谱

李志强(东南大学苏州联合研究生院)

许茜 (东南大学苏州联合研究生院)

秦旭 (东南大学苏州联合研究生院)

李林(东南大学计算机学院)

殷春锁(东南大学计算机学院)

吴亦珂 (东南大学人工智能学院)

王然(东南大学软件学院)

漆桂林(东南大学计算机学院) 

2. 新冠科研图谱

陈卓 (浙江大学计算机学院)

吴杨(浙江大学计算机学院)

邵鑫 (浙江大学药学院)

陈华钧 (浙江大学计算机学院) 

3. 新冠临床图谱

蔡嘉辉(海乂知信息科技(南京)有限公司)

杜会芳( 北京文因互联科技有限公司)

冯莉(海乂知信息科技(南京)有限公司)

王昊奋(同济大学设计创意学院)

4.新冠防控图谱(待发布)

张美(海知智能)

胡丹阳(武汉科技大学)

王萌(武汉科技大学)

李秋(武汉科技大学)

齐一凡(复旦大学)

刘明慧(复旦大学)

顾进广(武汉科技大学) 

5. 新冠物资知识图谱(待发布)

刘宇 (武汉科技大学)

徐航 (武汉科技大学)

向军毅 (武汉科技大学)

顾进广(武汉科技大学) 

6. 新冠英雄图谱

李一斌(海乂知信息科技(南京)有限公司)

王智凤(海乂知信息科技(南京)有限公司)

蔡嘉辉(海乂知信息科技(南京)有限公司)

王昊奋(同济大学设计创意学院) 

7.新冠事件知识图谱

刘作鹏(小米人工智能实验室)

王献敏(小米人工智能实验室)

彭茜 (小米人工智能实验室)

戴振 (小米人工智能实验室) 

8.其他技术支援

尚忆秋

耿新鹏(北京文因互联科技有限公司)

李娟 (浙江大学计算机学院)

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业知识图谱
暂无评论
暂无评论~