自动构建的大规模开放域中文实体知识库

在如今的信息化时代,互联网中实体类别多样化,且粒度更细并具有层次,相对于类别有限的传统命名实体,人们开始将目光转向开放域实体,哈工大社会计算与信息检索研究中心推出的《大词林》是一个自动构建的大规模开放域中文实体知识库

实体是文本中承载信息的重要语言单元。按照Automatic Content Extraction(ACE)评测计划的定义,实体在文本中的引用可以有三种形式:命名性指称、名词性指称和代词性指称,在自然语言处理领域,命名性的指称被称为“命名实体(Named Entity,简称NE)”。

MUC-6(1995)首次提出命名实体识别任务,旨在识别出实体概念的命名性指称,即命名实体,并标明其类别,实体的类别是实体概念上外延更广的主题词,也被称为实体上位词,和实体具有上下位关系。起初,识别的实体类别有人名、地名、机构名,但这些实体类别很局限,并不能满足实际的需求。在此基础上,又有诸多的实体类别定义,如:ACE-2007将实体分为7大类、45小类,Yosef(2013)将实体分为505类。

上述将命名实体的类别进行人为的定义,其优点在于可以将命名实体识别中标明实体类别的过程看作分类问题,然后应用传统的模式分类方法解决该问题。然而,预先对类别进行定义也有其不可避免的缺陷:人工定义的类别覆盖程度有限且不易更新,当涉及新的领域时,实体类别体系可能需要重新定义。

在如今的信息化时代,对于互联网中的海量实体很难由人工预先定义出一个完备的类别体系,这些实体被称为开放域实体,和传统命名实体相比,开放域实体有以下两个主要特点:

  1. 实体词的类别更多,且不限定。比如可能的类别包括药品、动物、植物、赛事、会议、菜肴等等,远远多于传统命名实体。而且随着社会的进步,一些新的类别可能出现,因此靠人工难以确定一种固定的完备的类别体系。

  2. 实体词的类别粒度更细,且有层次。比如传统命名实体中的机构名可以进一步细分为:学校名、公司名、政府部门名、新闻机构名等;学校名则还可以继续细分为高校名、中学名、小学名等。这些类别通过上下位关系连接,构成一种偏序结构。

由此可见,对于开放域实体,已无法将其类别标定简单地看作分类问题

近年来,一些学者或机构开始为开放域实体构建知识库,以更好地为信息抽取信息检索、开放域问答等自然语言处理任务提供支持。其中包含实体类别的知识库有英文的WordNet、汉语的知网(HowNet)以及《同义词词林》等。哈工大社会计算与信息检索研究中心为了扩充《同义词词林》,利用已有的汉语词语相关资源并投入大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》(以下简称《同义词词林(扩展版)》),最终的词表包含 77,343 条词语。

但这些知识库需要领域专家的人工构建,使得构建的过程耗时费力从而无法大规模化,对互联网中海量开放域实体的覆盖程度极为有限。

2014年11月,哈工大社会计算与信息检索研究中心推出自动构建的大规模中文实体知识库——《大词林》,相比于上述提到的开放域实体知识库,《大词林》的构建不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。同时也正是由于《大词林》具有自动构建能力,其数据规模可以随着互联网中实体词的更新而扩大,很好地解决了以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。

另外,相比以往的类别体系知识库,《大词林》中类别体系的结构也更加灵活。如《同义词词林(扩展版)》中每个实体具有具备五层结构,其中第四层仅有代码表示,其余四层由代码和词语表示,而《大词林》中类别体系结构的层数不固定,依据实体词的不同而动态变化,如“哈工大”一词有7层之多,而“中国”一词有4层;另外,《大词林》中的每一层都是用类别词或实体词表示。

《大词林》中“哈工大”的类别体系

《大词林》中“中国”的类别体系

自2014年11月27日上线,《大词林》不断添加中文实体及其层次化类别信息,自动构建开放域实体知识库。目前,《大词林》中包括约250万实体、约15万个类别;平均每个命名实体有1.32个不同粒度的类别;上下位关系超过330万,其中实体与上位词之间的上下位关系与上位词之间的上下位关系准确率均达到90%以上。

《大词林》系统网站(http://www.bigcilin.com/,点击文末【阅读原文】即可访问)支持用户查询任意实体,并以有向图的形式展现实体的层次化类别,同时支持以目录方式供用户浏览部分公开的知识库

《大词林》以有向图的形式展现实体的层次化类别及关系

《大词林》支持以层次化结构展现部分知识库

 人工智能中关键的一步是知识的获取与构建,《大词林》作为基于上下位关系的中文知识库,随着互联网中实体词的增加不断扩充其数据规模,并即将加入实体间关系、实体属性等网状关系结构,这对于基于知识库的智能系统无疑是一笔巨大的宝藏。目前《大词林》已被科大讯飞、腾讯、奇虎360等多所公司以及高校付费使用。

入门
相关数据
分类问题技术
Classification

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

信息抽取技术
Information extraction

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

知识库技术
Knowledge base

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

信息检索技术
Information Retrieval

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

命名实体识别技术
Named entity recognition

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

查询技术
Query

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检所研究中心

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

推荐文章
返回顶部