大规模、结构化新冠知识图谱如何实现?这里是清华大学AMiner和智谱AI团队的技术报告

2019 年末,一场突如其来的新型冠状病毒肺炎疫情迅速蔓延,并造成全球大流行,截止 5 月 18 日全球累计确诊病例达 470 万。全世界的科研人员、医疗人员、政府工作人员和公众渴望获得开放、全面的新冠知识以对抗新型冠状病毒。

为此,清华大学 AMiner 和智谱.AI 团队收集整理了前期人工整理的 COVID-19 开放知识图谱,并进一步融合,构建了一个大规模、结构化新冠知识图谱(COKG-19)。

COKG-19 旨在帮助发布者和科研人员识别和链接文本中的语义知识,并提供更多智能服务和应用。目前,COKG-19 包含了 505 个概念、393 个属性、26282 个实例和 32352 个知识三元组,覆盖了医疗、健康、物资、防控、科研和人物等。此外,COKG-19 是一个中英文双语知识图谱

与此同时,联合团队还进一步收集了开放新冠论文数据(例如 CORD-19),以构建一个更为全面、细粒度的新冠知识图谱

1.COKG-19 第一版构建
图 1 COKG-19 第一版构建流程

1.1 Schema 层融合

疫情爆发初期,OpenKG(openkg.cn)公布了新冠知识专题,其中包括了 8 个独立的人工或半人工整理的知识图谱,涉及健康、防控、流行病、百科、人物、医疗、物资、事件、科研等方面。然而这些知识图谱规模不一,质量不一,且存在重叠和不一致等情况。

团队通过语义匹配和排岐方法,将相同含义的概念进行合并,将同名不同义的概念进行区分;其次,根据相关专家的意见对排歧合并后的概念间关系进行修正和补充,例如删除冗余概念,细分病毒等专业子类,修正疾病的子类等;最后得到的 COKG-19 概念层共包含 505 个概念,其中顶层概念为22个(疾病、症状、药物、医疗设备、病毒、防控等),大致可划分为生物学、流行病学和通用百科三个方向。对于属性的排歧与合并也采取类似的语义融合方法处理,并将不同 domain 和 range 的概念进行区分,共包含 393 个属性。

1.2 实例数据层的融合

将原有知识图谱的全部实例进行归纳并进行语义排歧,并根据融合后的图谱 Schema,修正其中的错误数据。同时,根据原有图谱中实例与概念间的关系,将实例与已构建好的概念层进行关联,最后筛选出 26282 个实例。

1.3 知识图谱的存储与发布

团队将构建好的 Schema 与实例数据进行合并,并利用专业翻译工具将概念、属性和实例进行翻译得到对应的英文数据。然后,根据已有数据将概念和实例数据组合成知识三元组(实体-关系-实体、实体-属性-值),输出三种不同的知识图谱存储格式:JSON-LD 文件、OWL/RDF 文件、以及 Neo4j 图数据库文件。

JSON-LD 文件:根据以组合好的知识三元组,按照 JSON-LD 的规则进行存储。

OWL/RDF 文件:利用 rdflib python 第三方包将已经构建好的 JSON-LD 文件转换为 OWL 文件(RDF 书写规则)。

Neo4j 图数据库:利用 py2neo python 第三方包将组合好的三元组数据填充的创建好的 Neo4j 数据库中。


2.COKG-19 与 CORD-19 数据融合

首先,利用专用实体识别工具(例如 PubTator,https://www.ncbi.nlm.nih.gov/research/pubtator/)对 CORD-19 论文数据进行实体识别,共识别出 Gene、Virus、Chemical、Disease 等 18 种类型实体。其次,根据概念的英文名称和已构建好的 COKG-19 概念层进行语义合并和去重。最终,CORD-19 与 COKG-19 概念合并后共包含 510 个概念,比 COKG-19 第一版增加了 Compound(化合物), SNP(单核苷酸多态性), BiologicalProcess(生物过程)等 5 个概念和相关属性。

在实例数据进行融合阶段,团队利用了 WikiData 百科数据作为辅助知识,实现对异构和跨语言实例的对齐。例如两个实例能够链接到同一 WikiData 页面,则认为是相同实体并将其合并。此外,经过分析 CORD-19 数据中抽取的部分实例所属概念分类粒度不够细的问题(如:大量病毒被分类为生物或组织概念),将其进行整理并全部分到对应的细粒度概念下。

经过合并、去重之后,COKG-19 中共包含 510 个概念,414 个属性和 76 万实例。此外,我们利用 CORD-19 数据集中提供的 PMID(PubMed 的文章唯一标识)信息将融合后 COKG-19 中的实例数据与 CORD-19 中的论文数据进行了关联,论文数据包括(题目、作者、关键词等信息)。

构建流程:
图 2 COKG-19 第二版构建流程

3.COKG-19 疫情图谱应用

COKG-19 的应用除了可作为基础的科研用知识数据库之外,还可以提供实体链接和知识检索等功能。

3.1实体链接

基于 COKG-19 图谱,团队利用 lattice LSTM 和 Scispacy 等模型和工具,实现了基于知识图谱的中英文双语文本实体链接工具。
图 3 基于 COKG-19 的实体链接工具

实体链接工具已经应用于 AMiner 知识疫图智能驾驶舱(https://covid-dashboard.aminer.cn)系统的事件文本数据语义分析固件中,为全球疫情风险指数的分析提供了坚实的知识基础和工具。

3.2知识检索

针对 COKG-19 中知识的检索可基于实体排岐和全文索引等简单实现。

图 4 基于 COKG-19 的知识检索3.3 知识分析

融合多种知识数据之后,COKG-19 本身就为更深层次的知识挖掘提供了非常丰富的知识数据基础。例如,研究者可以方便地获得一些关键实体(基因、药物等)间的关联关系,从而为新冠肺炎治疗药物的潜在化合物筛选提供帮助。
图 5 COKG-19中包含的关键实体间关联关系图 6 指定实体间的关联路径分析

总结

COKG-19 知识图谱的构建充分利用了开源社区(OpenKG 等)和领域专家的力量,同时又应用了实体识别、语义消岐、知识融合等多种自然语言处理机器学习算法,充分展现了 AI+ 大数据技术在快速应对疫情过程中的广泛作用。

参考资料:

[1] https://allenai.github.io/scispacy/
[2] 新冠健康知识图谱,http://www.openkg.cn/dataset/covid-19-health
[3] 新冠防控知识图谱,http://www.openkg.cn/dataset/covid-19-prevention
[4] 新冠流行病知识图谱,http://www.openkg.cn/dataset/covid-19-epidemiology
[5] 新冠百科知识图谱,http://www.openkg.cn/dataset/covid-19-baike
[6] 新冠人物知识图谱,http://www.openkg.cn/dataset/covid-19-character
[7] 新冠医疗知识图谱,http://www.openkg.cn/dataset/covid-19-medical
[8] 新冠物资知识图谱,http://www.openkg.cn/dataset/covid-19-goods
[9] 新冠事件知识图谱,http://www.openkg.cn/dataset/covid-19-event
[10] 新冠科研知识图谱,http://www.openkg.cn/dataset/covid-19-research

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业AI清华AMiner清华大学知识图谱
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

实体链接技术

在自然语言处理中,实体链接,也称为命名实体链接(NEL)、命名实体消歧(NED)。实体链接的任务是为文本中提到的实体(例如着名的个人,地点或公司)分配唯一的身份。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

暂无评论
暂无评论~