凌珑作者

清华大学李涓子教授 : THUKC世界知识图谱——XLORE

2019年1月21日,清华大学人工智能研究院在清华大学FIT楼举行了知识智能研究中心成立仪式暨知识计算平台发布会,清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,人工智能研究院院长张钹院士、常务副院长孙茂松教授出席了仪式并致辞。

在此次发布会上,我国知识计算领域专家李涓子做了学术报告,介绍XLORE多语言知识图谱

文末附PPT及演讲视频

XLORE简介

XLORE是融合中英文维基、法语维基和百度百科,对百科知识进行结构化和跨语言链接构建的多语言知识图谱,是中英文知识规模较平衡的大规模多语言知识图谱知识图谱以结构化的形式描述客观世界中概念、实例、属性以及它们之间丰富的语义关系。XLORE中的分类体系基于群体智能建立的维基百科的Category系统。XLORE包含16,284,901个的实例,2,466,956个概念,446,236个属性以及丰富的语义关系。

Xlore三大特点:

(1)聚力了两大中文百科中英文平衡的图谱。

(2)具有更丰富的语义关系,基于isA关系验证。

(3)拥有多种查询接口,助力第三方使用。

发展情况:

团队介绍:

团队成员主要包括:

• 李涓子

清华大学知识工程实验室负责人,清华大学计算机系教授,中国中文信息学会语言与知识计算专委会主任、中国计算机学会术语委员会执行委员。

知识图谱,新闻与社会网络挖掘

• 张鹏:系统设计

• 侯磊:新闻挖掘,知识图谱

• 金海龙:表示学习,实体分类

• 吕鑫:表示学习,知识推理

应用案例:

实体链接系统    Entity Linking System

XLink是基于跨语言知识库XLORE的实体链接系统,用户输入一篇文本文档(如新闻、博客等),XLink识别出文档中的实体并链接到XLORE相对应的实体上。实体链接将文本信息和知识库桥接起来,为文本理解提供了外部知识,同时,帮助读者理解有歧义的、生僻的实体,提高文本理解能力。

新闻事件分析挖掘和搜索系统实体链接系统   NewsMiner

使用最前沿的自然语言处理机器学习深度学习方法从语义层面分析新闻数据,同时处理中英文新闻数据,并实现语义级跨语言内容聚合对齐。全新的事件-话题-实体新闻表示模型摆脱传统新闻平面式展示和阅读体验。千万级百科知识库(XLORE)为基础读者提供更为丰富的背景知识。

应用服务:

XLORE API

XLORE API是为xlore.org设计开发的在线跨语言知识图谱数据服务API。

包括词条检索、关键字检索、概念检索、实例检索、先关机构人物检索、实体关系检测。

词条检索

使用URI作为参数从XLORE中获取URI指定的词条信息:包括名称(Label),上级概念(Super Class), 相关概念(Related Class),Infobox(Property),摘要(Abstract),类型(Type)。

关键字检索

使用关键词作为条件模糊查询XLORE,获取可能的概念(Class)或者实例(Instance)。

概念检索

使用关键词为条件查询XLORE中的概念(Class),并获得概念的简要信息,包括概念的名称(Label),URI 上级概念(Super Class)、下级概念(Sub Class)和实例(Instance)。当结果多余10个时,仅返回前10条。

实例检索

使用关键词为条件查询XLORE中的实例(Instance),并获得实例的简要信息:包括实例的名称(Label), URI和类型(Type),相关概念(Class)和相关实例(Instance)。当结果多于10个时,仅返回前10条。

相关机构人物检索

使用URI为条件查询XLORE中的概念(Class)、实例(Instance)的相关机构和人物实例,并获得实例的简要信息:包括实例的名称(Label), URI和类型。当结果多于10个时,仅返回前10条。

实体关系预测

近一年API调用174余万次,覆盖了58个国家或地区,国内129个城市。

XLINK

  • XLink是基于跨语言知识库XLORE的实体链接系统。

  • XLink能够识别出用户输入的文本文档(如新闻、博客等)中的实体,并链接到XLORE相对应的实体(概念、实例)上。

  • XLink将文本信息和知识图谱桥接起来,为文本理解提供了外部知识。同时,XLink帮助读者理解有歧义的、生僻的实体,提高文本理解能力。

相关比较

与国际著名知识图谱数据比较:

  • DBpedia—最早的维基类知识图谱

  • Freebase—Google知识图谱的核心

  • YAGO和BabelNet—2017年IJCAI卓越论文奖

PPT具体内容:

演讲视频

清华大学知识智能研究中心发布会(上)

清华大学知识智能研究中心发布会(下)

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论XLORE知识图谱李涓子清华大学
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
推荐文章
暂无评论
暂无评论~