知识图谱构建之实体关系挖掘

知识图谱什么

知识图谱是以图谱的形式表明实体之间的关系,而如何从文本中挖掘实体之间、实体与属性的关系则是我们今天想要讲述的~这里以裁判文书中的实体关系抽取为例说明。

功能简介

裁判文书实体关系挖掘服务用于对裁判文书中包含的实体关系进行自动挖掘。

功能描述

该服务由用户输入一篇裁判文书,实现实体自动识别,并抽取实体间关系。

输入:一篇完整的裁判文书。

输出:一个或一组实体关系。

一个关系用如下结构表示:

{

  RelType: 表示提取的关系类型名称;如代理人关系、赔偿关系等

  Rel:  表示从原文中提取的指示关系的具体词语;

  Value: 表示关系的数值;不同的关系,Value表示的内容也不同,如赔偿关系的金额等;

  Obj1: 表示关系涉及的实体1的值;

  Obj2: 表示关系涉及的实体2的值;

  Time: 表示关系发生的时间;

  TimeInvalid: 表示关系失效的时间;如夫妻之间的离婚时间;

  Evidence: 表示关系从哪些原文中提取得到的;

  Weight: 表示关系挖掘的可信度,一般是[0,1]之间的小数。

}

实体,可以是个人,也可以是机构,如公司、公益机构、政府机构等。

关系类型  

1、代理人关系:原告、被告与其代理律师、自然代理人之间的关系。

2、家庭关系:民事案件中,关于原告、被告、或者与第三方之间的个人关系,如离婚案件中的夫妻、父子、母子、爷孙、兄弟、叔侄等关系。

3、企业高管关系:原告、被告、或者与第三方之间的企业与其高管之间的关系,如法人、董事、监事、高管、区域经理等关系。

4、企业关联关系:原告、被告、或者与第三方之间的企业与企业之间的关系,如分公司、子公司、代理商、供货商等关系。

5、赔偿关系:判决结果中,原告与被告之间的费用支付情况。赔偿关系中,一般有Value输出值,表示赔偿的金额。

6、债务关系:民事案件中,关于原告、被告、或者与第三方之间的经济纠纷。债务关系中,一般有Value输出值,表示债务涉及的金额。

7、违约关系:民事案件中,关于原告、被告、或者与第三方之间的违约事实。

8、伤害关系:刑事案件中,关于原告、被告、或者与第三方之间的人身伤害关系,如杀人、致残等。

服务在输出每个关系时,会根据提取算法从原文中获取依据的数量与质量,输出关系挖掘的可信度,一般是[0,1]之间的小数。可信度越高,表示输出的关系越可靠。

为了方便查看服务效果,服务同时输出关系提取的证据,从哪些原文中提取得到的,以及提取的依据。

每个关系,会有一定的时间性,关系的有效性,决定着后续如何使用这些关系,如果关系失效,则不能采用这些关系来作为证据。服务中输出两个时间,一个是关系发生的时间,默认是裁判文书的判决时间,如果文书中有,则提取文书中的时间;第二个时间是关系失效的时间,如夫妻之间的离婚时间,从文书中自动提取。

相关服务

除了裁判文书实体关系挖掘的服务以外,泰岳语义工厂还提供了中文命名实体识别英文文命名实体识别等相关自然语言处理服务。

应用场景

该服务可应用于基于裁判文书的知识图谱,以及其他需要实体关系的企业服务场景。

接下来我们以盗窃酌情从轻处罚的案件框架为例,带领大家了解如何基于裁判文书的实体关系挖掘构建知识图谱

案情

被告人杨某在北京xxxxxxx北京xxxxx有限公司 女更衣室内,将被害人王某放在xx号更衣柜内 的钱包盗走(内有现金人民币xx元、身份证一 张、工商银行卡一张),后持该工商银行卡取 款并消费共计人民币xxx.x元。被告人杨某于 2015年10月27日被抓获,到案后如实供述了上 述犯罪事实。另查明,被告人家属已退赔被害 人王某全部经济损失,被害人王某对被告人杨 某表示谅解。

意见

被告人xx的辩护人关于xx系初犯、偶犯,到案 后如实供述犯罪事实、认罪悔罪,赔偿被害人 经济损失并取得谅解,建议对李×从轻处罚并 判处缓刑的辩护意见,本院予以采纳。

判决

被告人xx犯盗窃罪,判处拘役四个月,缓刑六 个月,并处罚金人民币一千元。

从上面的内容中,我们可以抽取出这样一个相对完整的知识图谱

服务特色

服务对裁判文书中所包含的绝大部分关系,均具有较高的识别准确率,对各种关系的多样性描述,服务采用的智慧语义认知技术,均能归一化到同一关系上去。

服务不仅输出实体关系,而且输出关系中涉及到的金额、时间等外延,同时还给出关系挖掘时所使用证据,依据挖掘算法认为的证据的可信度。

泰岳语义工厂
泰岳语义工厂

泰岳语义工厂是神州泰岳推出的NLP服务的开放SaaS平台,旨在为企业客户和行业应用开发商提供最专业、最快捷、性价比最高的NLP技术和服务。该专栏聚焦于介绍神州泰岳智慧语义认知技术和泰岳语义工厂提供的NLP服务。

http://www.nlpai.cn/
专栏二维码
入门知识图谱
4
相关数据
关系提取技术

关系抽取任务需要检测和分类一组工件中的语义关系提及,通常来自文本或XML文档。该任务与信息提取(IE)的任务非常相似,但是IE另外需要去除重复关系(消歧),并且通常指的是提取许多不同的关系。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

暂无评论
暂无评论~