Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

e成科技NLP部门知识图谱小组 奚骏泉作者

人力资源知识图谱搭建及应用

背景介绍

人力资源行业其实是做关于人的决策的数据密集型行业,其中的传统数据就包括简历、JD、面试评价、绩效等。随着时代和技术的发展,对数据的处理已经从简单人工处理进入到了人工智能技术的应用,而知识图谱则能把这些数据连接起来,挖掘其中更多价值,帮助企业管理层及HR们更明智的做出关于人的决策。

什么是知识图谱?

在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会反馈它认为与这个关键词最相关的网页。

直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案。

从杂乱的网页到结构化的实体知识,搜索引擎利用知识图谱能够为用户提供更具条理的信息,甚至顺着知识图谱可以探索更深入、广泛和完整的知识体系,让用户发现他们意想不到的知识。谷歌高级副总裁艾米特·辛格博士一语道破知识图谱的重要意义所在:“构成这个世界的是实体(things),而非字符串(not strings)”。

知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识(identifier)。类似于我们对于一个网页会有一个URL,对于数据库中的一条记录会有一个主键id等思想是一样的,强调去刻画thing,这里的thing是和传统web上的网页对比较的。每个属性—值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。上述图模型可用W3C提出的资源描述框架RDF或属性图(property graph)来表示。

e成技能实体知识图谱示例

图例说明:

实体:方形框为概念/类,圆形框为实例(具备唯一的本体,不与其他实例存在上下位关系)

关系:常用关系为subclassof(概念之间的上下位关系),instanceof(概念与实例的上下位关系),use(使用),part_of(包含)

人力资源行业应用场景

人才盘点

人岗匹配:对已有的jd/简历数据做了充分的深加工,使之构成知识图谱,简历和JD的匹配不是基于关键词而是对简历和需求的深度了解,甚至是相似岗位大数据的基础构成知识网络,达成精细化匹配。

人才画像:通过图谱推理补全,可以对员工进行全方位的技能以及素质描画,基于完备的人才画像,可以更好的对其晋升及培养提供指导意见。

Chat Bot

基于知识图谱的智能问答机器人,可以在多轮对话中,跟踪并推理用户潜在意图和缺失知识点,在面试及人才盘点场景中可以更智能理解用户真实需求。

知识图谱的构建

知识图谱的构建过程,主要分为两个部分:首先从各种数据源中抽取构建图谱所需的候选实体(概念)以及属性关系,第二步需要将这些独立零散的知识体系整合集成。并最终存储在特定的数据结构中。

图谱存储

常见知识图谱数据存储方式:

 1.三元组表(S,P,O):类似RDF存储结构,以元组为单元进行存储,语义较为明确,但存在大量自连接的操作,开销巨大

 2.属性表:属性相似的主语聚为一张表,类似关系型数据结构,每一条数据代表一个实体,每一列代表一个属性。

目前图结构存储有两种通用的存储方案:RDF存储 和 图数据库(Graph Database)。 图数据库的结构定义相比RDF数据库更为通用,实现了图结构中的节点,边以及属性来进行图数据的存储,典型的开源图数据库就是Neo4j/Dgraph/tinkerpop/OrientDB等, 这种做法的优点是数据库本身提供完善的图查询语言、支持各种图挖掘算法。

本文介绍三元组+图数据库的存储方式,使用Dgraph图数据库。Dgraph 是一个可扩展的,分布式的,低延迟的图数据库,目标是提供 Google 生产水平的规模和吞吐量,在超过 TB 的结构数据里,为用户提供足够低延迟的实时查询。Dgraph有独立开发的网页端查询和操作界面,同时支持 GraphQL 作为查询语言。

实体提取

实体定义:

能够独立存在的,作为一切属性的基础和万物本原的东西,也就是说实体是属性赖以存在的基础,必须是自在的,也就是独立的、不依附于其他东西而存在的。

数据来源:e成科技已经有8万注册企业用户,积累了上亿份简历数据,以此作为数据源可以广泛覆盖多行业人才知识体系

实体类型:证书/公司/部门/职能/行业/专业/学校/技能等八大实体

模型提取:使用了当前业界通用的CRF序列标注模型结合领域专属词表

关系抽取

常见语义关系主要包括:同义关系、上下位关系、部分整体关系和因果关系等。其中上下位关系是一种非常重要的语义关系而且在知识图谱的构建过程中占有很大的比重。上下位关系的抓取就成为构建知识图谱的核心之一。

上下位关系的抓取分为有监督的和无监督的,以下我们将各自进行介绍:

有监督模型

基于远程监督(Distant Supervision)和卷积神经网络(CNN)相结合的方法对上下位关系进行提取以及后续可以改进的地方。PCNNs(Piecewise Convolutional Neural Networls)模型是由Zeng et al. 在2015年提出的,该模型主要解决了以下两个问题:第一,对于远程监督的wrong label问题,模型采用了多个示例进行学习训练,抽取置信度高的样本训练模型;第二,解决了传统特征抽取特征错误或者无效的问题,PCNN利用卷积神经网络进行自动特征学习。

主要计算步骤如下:

步骤一:切词,对文本进行切词,并标记实体的位置。

步骤二:向量化(Vector Representation),利用word2vec对切分的词进行word embedding(d维)表示,position embedding (d维)采用随机初始化。这样就将一段文本表示成了d×S,其中S是文本的token数。

步骤三:卷积(Convolution)构造卷积核对步骤二的矩阵进卷积操作

步骤四:池化(pooling),这里采用的是max-pooling,但是这里与一般的池化层有一定的区别,这里池化的位置是实体的分割位置。

步骤五:Softmax分类输出。 

无监督模型

有监督模型对于训练样本的标注以及语料都有比较高的要求。在实际应用中,无监督模型可以在没有标注数据的情况下获得部分数据的实体上下位关系,同时也可以支持有监督的方法。

1.基于pattern的方法,例如熟悉CNN、LSTM等神经网络。在例句中CNN和LSTM就是神经网络(上位词)的下位词

2.根据假设Distributional Inclusion Hypothesis(DIH)即下位词的上下文包含与上位词的上下文和实体词的上下文来发现上下位关系

外部知识体系

知识图谱的构建与知识体系积累已经取得了很多研究成果,使用相对成熟的外部知识源补充手工构建的知识图谱也是一种常用手段。

在这次人力资源图谱构建过程中,主要使用了wikidata以及mba智库两个外部数据源。

Wikidata是一个大型数据库,由维基媒体德国分会首先提出,其目标是开发“世界知识的一个协作编辑的数据库”。该数据库提取了包括中文版在内的不同语言版本的维基百科和Freebase中具有共同认知的条目,并设想通过这样的共享数据库,提高维基百科内容的质量和一致性 。更重要的是 Wikidata非常重视数据的来源,并对其进行标注。该项目在2014年已完成,目前总条目数已经达到14755076个,且在持续增长中。

MBA智库百科是一部内容开放的百科全书,也是人人可以参与编写的百科全书。其目标是专注于经济管理领域知识的创建与分享。该数据库中的词条按照领域进行了分类,并构成了一个树形的多级领域结构。对于人力资源行业,常见的Wikidata等数据库中对该领域的覆盖率不够;而MBA智库百科中的经管类数据则对提升数据的覆盖率起到了一定的作用。

实体对齐/链接

对于多个外部数据源引入后,会出现大量的相似实体,故需要引入实体对齐/链接技术。

实体对齐/链接(ObjectAlignment):旨在发现具有不同标识实体但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。目前常用的方式是对实体进行聚类分析,聚类的关键在于定义合适的相似度计算。

本文介绍两种相似度计算:具有相同描述的实体可能代表同一实体(字符相似);具有相同邻居的实体可能指向同一个对象(结构相似)。

后续工作

知识图谱的构建是一个浩大的工程,本文仅列举部分常用模块,实体消歧/知识推理/关系补全等其他相关工作将另文介绍。

参考文献

Daojian Zeng and Kang Liu and Yubo Chen and Jian Zhao,Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks,EMNLP,2015

Stephen Roller, Douwe Kiela, Maximilian Nickel,Hearst Patterns Revisited: Automatic Hypernym Detection from Large Text Corpora,ACL,2018

Vered Shwartz, Enrico Santus, Dominik Schlechtweg,Hypernyms under Siege: Linguistically-motivated Artillery for Hypernymy Detection,EACL,2017

Baoxu Shi, Tim Weninger,Open-World Knowledge Graph Completion,AAAI,2018

Zhuang Yan, Li Guoliang, Feng Jianhua,A Survey on Entity Alignment of Knowledge Base,2016

e成科技
e成科技

e成科技作为助力人才战略成功的AI平台, 开创性地将AI技术与人才战略升级场景深度结合,并基于画像和Bot(智能对话机器人),形成AI咨询、 AI招聘和AI产业三大支柱产品线,为企业和政府提供智能数字化决策解决方案。 e成科技始终秉持“打造人与任务新型连接平台” 的愿景,将“科技驱动人才升级” 作为自身使命不懈奋斗。

理论知识图谱人力资源CNN监督学习关系提取LSTM
7
相关数据
刘康人物

中国科学院自动化研究所副教授,研究领域:自然语言处理、信息抽取、问答系统、信息检索、机器学习。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

最大池化技术

最大池化(max-pooling)即取局部接受域中值最大的点。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

查询语言技术

查询语言泛指向数据库或信息系统查询的各种编程语言。 查询语言必须要能表达所有关系代数所能表达的查询,这样才被称为关系完整的。

聚类分析技术

聚类分析(CA)是一种典型的无监督学习方法,这种方法是根据对象的特点将它们分成不同的组。K-均值是应用最广泛的聚类方法,其它方法还包括 k-Medoids、分层聚类和 DBSCAN。期望最大化法(EM)也是聚类分析的一种解决方案。聚类分析在数据挖掘、市场调研、异常值检测等许多领域都有应用。另外,降维技术也是一类类似于聚类分析的无监督学习方法,其典型的代表有主成分分析(PCA)、线性判别分析和 Isomap。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

特征抽取技术

资源描述框架技术

资源描述框架,是万维网联盟提出的一组标记语言的技术规范,以便更为丰富地描述和表达网络资源的内容与结构。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

推荐文章
暂无评论
暂无评论~