开放知识图谱来源

OpenKG组织发布第二批并更新近十个新冠知识图谱开放数据集

2020年2月11日,世界卫生组织宣布了新型冠状病毒肺炎官方正式命名为 COVID-19,21日国家卫健委决定与世界卫生组织保持一致,中文名称不变。随着关于新型冠状病毒病毒疫情的不断发展,有关疫情的各类信息也在不断更新。OpenKG 紧随疫情发展,继续发布新领域的新冠知识图谱,同时对已经发布的图谱进行持续不断的更新。

本次主要新增清华大学与妙健康等单位构建的新冠健康图谱、浙江大学与华为云联合构建的病毒药物和病毒亲缘关系等图谱、河海大学等单位构建的新冠热点事件图谱,武汉科技大学等单位构建的新冠物资IBM中国研究院等构建的流行病学图谱 (实例数据更新中)。同时来自同济大学、浙江大学、东南大学、海乂知信息科技、文因互联、小米人工智能实验室、复旦大学等分别更新了百科图谱科研图谱临床图谱英雄图谱等部分的数据。近期我们还将发布新冠防控图谱

OpenKG 发布的所有新冠知识图谱都基于统一的命名规范和语义格式,采用 CC-by SA 相似署名开放许可协议,供大家免费下载使用。持续更新,敬请关注!

此外,在 OpenKG 的知识图谱众包平台 OpenBase 上,我们还将展开新冠知识图谱众包,欢迎大家为高质量的中文知识图谱贡献力量。

新冠图谱专题链接

http://openkg.cn/group/coronavirus

1.新冠百科图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-baike

1.1 更新记录

  • 相较于第一版,第二版修改了数据爬取范围,通过重新抓取百科数据,提升了整个图谱数据规模。实体数扩展至54318,三元组数扩展至270807,关系数和属性数分别扩展至22和50个。

  • 对百科实体进行了类别推断,根据不同类别的实体特点,拓展了schema的属性部分。

  • 通过三元组和文本分析挖掘和构建了新的实体关系网络。

1.2 简介以及潜在应用

新冠百科图谱包括病毒、细菌、流行病、传染病等相关实体。作为新冠领域知识图谱的基础,图谱以病毒、细菌为主体,扩展了治疗,疾病等相关内容,通过了这些概念的百科知识,形成了新冠百科图谱。除了新冠相关的实体外还涵盖了过往疫情。

潜在应用:面向新冠相关术语的语义检索、智能问答,并可用于新冠相关文档的智能搜索和推荐。

后续工作中,将从百度百科,互动百科,中文维基百科,医学百科中进一步挖掘病毒,细菌,疾病,医学之间的关系。采用基于本体的信息抽取技术,扩充实体的属性信息。同时,完成与zhishi.me等通用知识图谱的链接。            

1.3 可视化样例

2.新冠科研图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-research

2.1 更新记录

  • 科研图谱新增病毒药物、病毒亲缘关系、新冠病毒基础信息三个数据库和数据集,并更新病毒分类图谱

2.2 概要介绍

在第一阶段的发布版本中,我们从病毒的生物学分类角度出发,以NCBI美国生物信息中心 Taxonomy 板块下的数据为基础,构建了一个病毒的族系网络——病毒分类图谱。该图谱具有较大的规模,其中实例的数量达20w以上,三元组的数量更是达到了190w+。但是其在分类及族系关系以外未引入其他信息,具有一定的局限。

通过与医药、生物学相关科研人员的交流及合作,从专业的角度了解病毒差异的来源以及区分/联系不同病毒的重要属性;同时,通过与华为云语音语义创新Lab及华为云医疗智能体团队开展合作,从不同科研内容角度展开多方面的工作,期望通过双方深入的交流及合作,共同构建并完善用于科研用途的知识图谱

当前工作建立在不断完善schema的基础上, 通过梳理病毒、基因、蛋白、药物等相关概念,围绕新型冠状病毒、抗病毒药物等展开工作。从病毒的基因,蛋白,宿主以及核苷酸序列等相关信息出发,基于NCBI数据库中新冠病毒(COVID-19)相关数据,构建新冠基本信息图谱 V1.0。从抗病毒药物、Human Protein、Virus Protein、宿主等信息出发,基于DrugBank等数据库的数据,构建抗病毒药物图谱 V1.0。

除此之外,考虑到病毒流行学是重要的科研方向,我们从该角度出发,以Gisaid全球流感数据库所提供的实时新冠病毒sequence数据为基础,结合nextstrain对于新冠病毒基因组流行病学的分析及相关算法, 整理出了一个短期病毒突变的连接网络——病毒亲缘关系图谱v1.0。其中包含了地理,时间,变异度,突变的基因蛋白等信息,为后续的相关研究(病毒溯源)及图谱的融合提供支撑。

2.3 潜在应用

在后续对于其他属性进行补充与关联,扩充图谱之后,数据集可用于尝试以下应用:

(1)预测新病毒的生物学分类,新物种发现

(2)预测病毒变异性

(3)预测病毒热稳定性

(4)预测病毒的易感群体、宿主

(5)预测病毒的致病部位

(6)预测病毒可导致的症状,可缓解症状的药物

(7)潜在治疗的药物,如老药新用

(8)预测病毒的传播途径、传播种类

(9)预测可能与病毒蛋白相互作用的蛋白,发现新的蛋白靶点

(10)针对新的蛋白靶点,进行药物开发

(11)病毒溯源,病毒变异的分析与预测

2.4 图谱可视化

(1)病毒分类图谱 V1.1

parent关系用于连接Resource之间的层级关系,比如COVID-19病毒在其家族树种的上层结点是unclassified Betacoronavirus。通过parent关系可向上遍历家族树。

species、genus、family等关系用于直接连接病毒与其属类别、种类别结点。这样即可不通过遍历家族树直接找到其属。

broader用于连接不同的家族概念,比如Genus属就是Species种的一个更宽泛的家族概念。

虚线中的关系和概念是未来工作中会添加的关系和连接的实体类型。比如病毒的基因实体、蛋白质实体、宿主实体等等。

(2)新冠基本信息图谱 V1.0 (新增)

如下图可视化展示,express表示COVID-19与其表达基因间的关系,例如COVID-19表达ORF7B/ORF10/NS6等类型的基因;

translate表示基因与蛋白间的翻译关系,例如COVID-19的ORF8基因可翻译出ORF8 protein;另外,我们又用produce关系表示COVID-19可产生对应的蛋白。

为了进一步表示COVID-19和宿主的关系,我们使用host表示,目前图谱中的宿主实体主要是human和vertebrates。

(3)抗病毒药物图谱 V1.0 (新增)

如下图可视化展示,effect 关系用于表示抗病毒药物对于病毒有一定效果,例如Nelfinavir 和 Abacavir 对Human immunodeficiency virus 1有抗病毒效果,通过本关系可查看抗病毒药物和对应病毒间的联系;

produce关系可用于挖掘病毒与其所表达蛋白间的express关系,并可进一步挖掘不同病毒与同一类型蛋白间的关系,进而发现两个病毒间的间接关系;再通过某病毒与某抗病毒药物间关系,又可发现某抗病毒药物和另一病毒的间接关系;可以帮助发现对于某一类型病毒蛋白可能有作用的更多药物。

Interaction 和 binding 关系可以用于发现病毒蛋白与宿主蛋白间的相互作用,比如Human的ACE2 和SARS-COV的Spike glycoprotein间的interaction;之后可再补充某些药物和ACE2间的target关系,进而可以研究这些药物和SARS-COV的Spike glycoprotein间的作用.

通过belong to关系,可以明确哪些蛋白属于哪类宿主,这类宿主的哪些蛋白与病毒有相互作用关系等。

在属性方面,我们又进一步从DrugBank挖掘了这些信息(商品名、化学式,分子重量,indication等),作为drug实体的属性,使得研究者可以更直观的了解某drug的一些重要信息。之后我们会进一步完善补充更多关键实体的重要信息。

(4)病毒亲缘关系图谱 V1.0 (新增)

如图所示,图中有Strain毒株,Branch分支,Country国家,State区域和City城市这些实体类型,其中地理位置与Strain毒株的连接通过from_country, from_division和from_location来标识。Country,State,City互相连接构成网络。

对于Strain毒株的属性,包括了AA变异,核苷酸突变,与上一分支的差异率等等信息,展示在图中的表格中。其中变异数据和差异率数据都是相对mutate_from_branch指示的Branch结点来说的,而Branch也相对上层的Branch,因此最终的Strain突变应当是整个树目录突变的总和。

2.5 数据来源及规模

数据来源:

  • NCBI中的Taxonomy板块     截止至2020.2.21

    • https://www.ncbi.nlm.nih.gov/Taxonomy

  • 全球流感数据库                   截止至2020.2.21

    • https://www.gisaid.org

  • Nextstrain网站                   截止至2020.2.21

    • https://github.com/nextstrain/ncov

  • DrugBankVersion 5            截止至2019.08

  • NCBI Taxonomy COVID-19数据       截止至2020.2.20

  • VirHostNet1.1                    截止至2019.01

  • Virus Pathogen Database          截止至2020.02

数据规模:

病毒分类图谱 V1.1

  • 概念:16个                       

  • 实例:205500个

  • 对象属性:15个

  • 三元组数目:2140191个

新冠基本信息图谱 V1.0

  • 概念:4个                       

  • 实例:470个

  • 对象属性:7个

  • 三元组数目:2096个

抗病毒药物图谱 V1.0

  • 概念:5个                       

  • 实例:7845个

  • 对象属性:27个

  • 三元组数目:60662个

新冠亲缘关系图谱 V1.0

  • 概念:6个                       

  • 实例:233个

  • 对象属性:15个

  • 三元组数目:2071个

3.新冠健康图谱 V1.0

图谱链接:

http://www.openkg.cn/dataset/covid-19-health

3.1 简介以及潜在应用

新冠健康图谱由清华大学和北京妙医佳健康科技联合构建,包含跟新冠肺炎相关的各类疾病、药物、症状、检查、全国各地接收新冠肺炎定点医院等信息。

潜在应用: 流行病调查研究,基于图谱的新冠肺炎健康防护问答。

3.2 数据schema 

目前图谱只包含schema,实例知识会在后续逐步更新,敬请期待。

3.3 数据来源与规模

数据来源

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • 百度百科

  • 北京妙医佳健康科技集团有限公司

  • 卫生健康委

数据规模

  • 概念:592个

  • 实例:7110个

  • 数值属性:104个

  • 对象属性:16个

  • 三元组数量:50405个

3.4 可视化的图谱样例

图例说明:方形代表概念(class),圆形代表实例(instance),悬浮到连线上显示的是两者的关系(relation)。

4.新冠物资图谱 V1.0

图谱链接:

http://openkg.cn/dataset/covid-19-goods

4.1简介以及潜在应用

新冠物资图谱包含防控新型冠状病毒所需要的各类物资,主要包括医用防护装备、日常防护用品、医用诊疗设备以及治疗用药。其中,医用防护装备包含了医用手套、口罩、隔离服等;日常防护用品包含洗手液、消毒用品等;医用诊疗设备包含常规检查设备和氧疗设备;治疗用药包含了《新型冠状病毒感染的肺炎诊疗方案》多个版本中的中、西药品。

示例问题

问:在疫情期间,如果出门买菜,带哪种口罩比较好?

答:选择医用外科口罩、N95口罩、KN95口罩即可,但是目前医用口罩比较稀缺,建议供应给一线使用。

问:如果买不到N95和医用外科口罩怎么办?

答:如果没有适合的口罩,您可以使用医用护理口罩,建议戴2层,防护性能会好一些,使用完毕后一定要洗手,并将口罩外用塑料袋或者纸巾包住,丢入垃圾桶内。

4.2 数据来源与规模

数据来源

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • 《国家基本药物目录》

  • 《全国卫生行业医疗器械、仪器设备(商品、物资)分类与代码》

  • 红十字会官网 http://www.wuhanrc.org.cn/

  • 百度百科

数据规模

  • 概念:165个

  • 实例:132个

  • 数值属性:56个

4.3 可视化样例

5.新冠流行病学图谱 V1.0

图谱链接:

http://openkg.cn/dataset/covid-19-epidemiology

本次预发布流行病图谱 schema,实例数据待更新。

5.1 简介以及潜在应用

    新冠肺炎流行病学知识图谱包含了流行病学知识图谱Schema和基于此Schema定义的新冠肺炎资源实例(待更新)。其中流行病学知识图谱Schema重点刻画流行病学的基本概念、流行病学调查等内容,未包含“流行病学研究方法”、“预防与控制策略”、“临床治疗与预后”等内容,需要在后续版本中与其他新冠肺炎知识图谱集成或连接。新冠肺炎资源实例包含了发生在2019年~2020年2月期间,COVID-19疫情中确诊患者的流行病学调查数据,这些数据来自中各省市卫健委公布的个案流调信息。

新冠流行病学图谱可以助力对流行病调查、溯源、密切接触者追踪,为医护人员和疾病防控人员提供技术支持,加速流行病调查研究。 

5.2 数据schema

1.传染源(动物,人,植物)

2.传播途径(飞沫,接触,气溶胶,粪口,食物,水,土壤,医源性,垂直)

3.传播模式(小范围暴露传播,扩散传播,散发,流行,暴发流行,超级传播)

4.流行病学特征(发病率,死亡数,粗病死率,年龄分布,性别分布,时空分布,季节特征,暴露史即疫区疫源接触史)

5.易感人群(儿童、老人、男人、女人)

6.潜伏期

7.传染性(强,中,弱)

8.感染来源(宿主,中间宿主)

9.宿主(蝙蝠)

10.中间宿主(穿山甲,果子狸)

11.防控方式(限制人员流动,减少接触,洗手,戴口罩,隔离)

12.病例基本信息(年龄,性别,身高,体重,暴露史,归属地,常住地,职业,种族)

13.病例合并基础性疾病(高血压、糖尿病、心血管疾病、呼吸道传染、肿瘤、肥胖)

14.病例临床表现(发热,咳嗽,干咳,乏力,呕吐,腹泻,肌肉酸痛,头痛,头晕,精神不振,胸闷,呼吸困难,呼吸窘迫)

15.病例诊疗信息(感染时间、发病时间、就医时间、确诊时间、住院时间、医院名称、出院时间、死亡时间)

16.消毒方式

17. 微生物(细菌,病毒,真菌,放线菌,立克次氏体,支原体,衣原体,螺旋体)

18.寄生虫(原虫,蠕虫,节肢动物)

11.事件

20.疫情发展(拐点,基本控制,彻底控制,消除疫区)

5.3 数据来源与规模

数据来源

  • 王建华,刘民,《流行病学-第7版》人民卫生出版社

  • 陈清,徐德忠,《流行病学复习考试指导》人民军医出版社

  • 各地卫健委公开信息

数据规模

  • 概念:49 个

  • 实例:6  个

  • 数值属性:34个

  • 对象属性:19个

  • 三元组数量:374 个

5.4 可视化的图谱样例

6.新冠热点事件图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-event

6.1 更新记录

  • 加入新的150份政府各部委的政策通告文件的事件抽取结果。

  • 添加schema中的政策事件的相关概念和属性。

  • 加入初期的事件类型标签。后期会进一步完善事件关键词抽取的结果。

6.2 简介以及潜在应用

从第一例出发到封城到各地响应等,重大事件脉络,以及相关时间等,和新冠百科、新冠科研、新冠临床、新冠防控、新冠英雄等均有关联, 并对新闻中的一些内容进行相关语义标注。

支持对新型冠状病毒的事件在时间上的正向和反向索引。并提供事件本身发展脉络的枚举。

支持查证事件的溯源。后期会加入对事件的存真鉴伪等高级特性。

6.3 数据schema

6.4 数据来源与规模

数据来源:

人民日报

http://activity.peopleapp.com/broadcast/?from=timeline

丁香医生

https://ncov.dxy.cn/ncovh5/view/pneumonia

腾讯

https://news.qq.com/zt2020/page/feiyan.htm

新浪微博

https://m.weibo.cn

数据规模:

  • 概念:4个                         

  • 实例:640个

  • 对象属性:17个

6.5 图谱可视化

7.新冠临床图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-medical 

7.1 更新记录

  • 根据最新的新冠肺炎诊疗方案第六版文件进行图谱模式更新及数据补充

  • 完善schema中药及药品部分的属性和关系,中药新增属性药理作用、性味、性状、中药基原、适用症,药品新增子概念化学药、中成药,新增属性禁忌、适用症。

7.2 简介以及潜在应用

临床图谱从目前已有的规范文件入手,基于诊疗规范(流行病学+症状+实验室指标+治疗)、研究进展(测序、药物开发、疫苗)、发病统计(丁香园), 将研究进展与科研相关联。

图谱以新型冠状病毒(COVID-19)为核心延展至病毒、治疗方案、症状、方剂等各类概念,形成新冠临床知识图谱,可基于图谱进行知识问答。

7.3 数据来源与规模

数据来源

  • 《新型冠状病毒感染的肺炎诊疗方案》

  • Wiki百科

  • 中医药知识服务平台 http://www.tcmkb.cn/ 

  • 医疗器械分类目录 https://db.yaozh.com/fenleimulu?from=www&position=index_hotdb 

  • https://github.com/liuhuanyong/QASystemOnMedicalKG

数据规模:

  • 概念:43 个

  • 实例:383 个

  • 数值属性:90 个

  • 对象属性:553 个

7.4 可视化样例    

8.新冠英雄图谱 V1.1

图谱链接:

http://www.openkg.cn/dataset/covid-19-character

8.1 更新记录

  • 构建新的实体关系网络,如人物间的队友、同事关系等。

  • 根据目前的疫情发展情况实时更新热点人物,拓展图谱规模。

8.2 简介以及潜在应用

新冠英雄图谱包括了医疗专家组、因公殉职英雄、武汉当地和全国各地的意见领袖等,涉及生平事迹和基本属性,并与新冠百科、新冠科研、新冠临床、新冠防控等图谱中的一些概念或实体关联。

图谱以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念,形成新冠英雄知识图谱,可基于图谱进行英雄人物动态展示。

8.3 数据来源与规模

数据来源百度百科、微信公众号、知网、澎湃新闻

数据规模

  • 概念:21个

  • 实例:747个

  • 数值属性:291个

  • 对象属性:1160个

目前图谱中共包含123人个人物,其中包括5位专家人员,27位因公殉职人员,医疗队代表人员91位。具体名单如下:


专家

因公殉职英雄

医疗队代表人物

人物名单

钟南山

刘大庆

张新忠

崔嵬

鲁翔

张文宏

曾文聪

于正洲

邓少华

吴红辉

李兰娟

何建华

梁医生

黄汉明

谢宏超

张定宇

苏莱曼·巴马丁

毛样洪

姜娜

….

张继先

宋英杰

陈在华

蒋金波

….


胡锋

程建阳

李弦

….


梁武东

马承武

孙训祥

….


尹祖川

李文亮

章良志

….


张辉

黄和艳

徐辉

….

总计(人)

5

27

91


8.4 可视化图谱样例

主要贡献者

总体协调人

王昊奋,陈华钧 ,漆桂林

1. 新冠百科图谱

东南大学:李志强,秦旭,许茜,李林,殷春锁,吴亦珂,王然,吴天星,漆桂林 

2. 新冠科研图谱

浙江大学:陈卓,吴杨,邵鑫,杨海宏,毕祯,叶宏斌,方尹,陈华钧

华为:郑毅,张雷,王鹏,章涛,刘登辉,徐迟,袁晶,乔楠,怀宝兴 

3. 新冠健康图谱

清华大学:许斌,毛亦铭,阎婧雅,初凤灵,吴高晨,仝美涵,孙静怡,李子明,陈秋阳,李凯曼,郑晓飞

北京妙医佳健康科技集团有限公司::刘邦长,常德杰,闫广庆,季科 

4. 新冠物资知识图谱

武汉科技大学:刘宇,徐航,向军毅,顾进广 

5.新冠流行病学图谱

IBM中国研究院:李静,王健,梅婧 

6.新冠事件知识图谱

河海大学:唐彦,张作为,王鲁威,张呈阳

小米人工智能实验室:刘作鹏,王献敏,彭茜 ,戴振 

7. 新冠临床图谱

海乂知信息科技:蔡嘉辉,冯莉

文因互联:杜会芳

同济大学:王昊奋 

8. 新冠英雄图谱

海乂知信息科技:王智凤,蔡嘉辉,李一斌

同济大学:王昊奋 

9.新冠防控图谱

武汉科技大学:胡丹阳,王萌,李秋,刘宇,顾进广

东南大学:张振志,胡润秋,徐毅男,张涛,史淼,郭文孜,黄红蓝

10.其他技术支援

OpenKG:尚忆秋

文因互联:耿新鹏

浙江大学:李娟

上海分布科技:胡凝

产业数据集OpenKG知识图谱
2
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
漆桂林人物

东南大学教授、博导,担任中国中文信息学会语言与知识计算专业委员会副主任和中国计算机学会中文信息技术专业委员会专委委员。漆教授于 2006 年从英国贝尔法斯特女皇大学获得计算机科学博士学位,师从人工智能界著名专家 Weiru Liu 教授。2006 年 8 月至 2009 年 8 月,在德国 Karlsruhe 大学 AIFB 研究所做博士后研究,师从语义 Web 界国际知名专家 Rudi Studer 教授。在人工智能和知识图谱的科研和实践方面有近 20 年的经历。发表高质量学术论文 100 余篇。特别是在国际人工智能联合会议(IJCAI)、AAAI 人工智能会议(AAAI)、知识表示与推理会议(KR)、不确定性推理会议(UAI)、语义网会议(ISWC)发表论文 20 余篇。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
小米机构

小米公司正式成立于2010年4月,是一家专注于智能手机自主研发的移动互联网公司,定位于高性能发烧手机。小米手机、MIUI、米聊是小米公司旗下三大核心业务。“为发烧而生”是小米的产品理念。小米公司首创了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。2018年7月,工业和信息化部向与中国联合网络通信集团有限公司首批签约的15家企业发放了经营许可证,批准其经营移动通信转售业务,其中包括:小米科技有限责任公司。 2018年7月9日,正式登陆香港交易所主板 。

https://www.mi.com/
暂无评论
暂无评论~