e成科技 人岗匹配团队汪序明作者

人岗匹配排序的探索与实践

在经典的机器学习排序模型中通常分为两种:复杂的人工特征工程+简单的模型,简单的人工特征+复杂的模型。本着该原则我们对以文本为主的职位和简历对进行了匹配排序实践。

”人岗匹配“是企业人力资源管理的核心问题,更是所有HR追求的目标。毫不夸张地说,”人岗匹配“是人力资源的起点,也是人力资源的核心目标之一。

本质上,企业和个人是利益共同体,只有使得组织利益和个体价值得到统一,做到“岗得其人”、“人适其岗”,根据人不同的素质和个性将其安排在最合适的岗位上,做到“人尽其才,物尽其用”,才能使人才发挥最大价值,同时激活组织。

那么,HR如何做好人岗匹配呢?

以前,在千百万份简历中筛选人才,是HR工作中“解不开的劫”,每天花费大量的时间和精力对优秀简历和职位信息人工做匹配,不仅消耗着HR的积极性,往往结果也不尽如人意,筛不到合适的人才,难以满足业务部门的需求。

现在,数字经济时代的新技术给HR带来了更多可能,AI技术将助力HR实现智能人岗匹配、大大提升人岗匹配效率与准确率,将HR从机械、琐碎的招聘工作中解放出来。

在人岗匹配的任务中存在HR、职位(JD)、简历(CV)三种实体,人岗推荐系统中由HR发布职位,根据发布职位来推荐简历,该场景中需要优化推荐的准确率、召回率,提升HR更高的工作效率,提升岗位和简历的匹配度来减少招聘人才的成本。

在经典的机器学习排序模型中通常分为两种:复杂的人工特征工程+简单的模型,简单的人工特征+复杂的模型。本着该原则我们对以文本为主的职位和简历对进行了匹配排序实践

特征为王

以JD和CV对为背景,该场景为经典的机器学习排序问题,目标在于预测JD和CV是否匹配,数据集的采集则是来自我司产品ATS平台,HR从系统根据JD推荐的CV来进行选择,符合要求将要走面试程序的则标为1,否则标为0。

2.1特征介绍>

常见的JD如下图1所示,其中包含格式化离散数据和整段文本数据,从整段文本数据获取招聘意图是提取JD特征的重点难点。

为了更好的解决该问题,我们分别引入知识图谱(KG)方法和自然语言处理(NLP)方法,其中KG负责去充分提取文本中实体的关系和联系,NLP则更好的获取JD本文和CV文本相似性信息。因涉及个人隐私此处不展示CV信息。

图1 JD示例

在以JD和CV对是否匹配的背景下,我们将特征主要分为以下几类

  • JD特征:包含地点,学历硬性要求和利用知识图谱中提取的实体特征如(职能,公司,技能,专业,行业)等;

  • CV特征:包含性别,年龄,学历等基础信息和从工作经历描述文本中提取的实体信息,以及文本类特征等。

2.2特征处理>

在获取JD和CV的基础特征之后我们主要将特征主要分为四种类型:
  • ID离散特征:比如UID,职能ID,公司ID,行业ID,技能ID,专业ID等。

  • 硬性离散类特征:除了性别,年龄,工作地点等基础类型特征,还包含有知识图谱提取的实体之间的关系特征比如学校是否匹配,职能(工作职位对应能力)是否匹配等,此处成为match特征。

  • 连续性特征:除薪资等,还包含有知识图谱提取的实体之间的graph embedding的vector相似性值,此处成为IDsim特征。

  • Emdedding特征:包括了ID离散特征的vector,该vector有知识图谱的graph embedding方法产生(如 DeepWalk,LINE等 )。文本embedding特征,该特征以JD和CV对的方式输入DSSM模型产生vector。

在此基础上我们还加入了相应统计特征,统计特征主要有强特征的共现特征以及强特征之间的多样性统计。特征之间的应用以及组合根据模型不同而展开讨论,不同模型对不同特征的表征能力不同。

模型演变

在模型方面主要可以分为两个总方向,分别是非线性树和deep模型的探索,在探索上主要是根据不同模型的性质进行特征工程

3.1非线性树模型>
我们主要以gbdt为主的树模型展开特征工程的探索,gbdt的实现以xgboost
图2

和lgb为主。gbdt模型结构如图2所示,gbdt为一个boosting模型,通过叠加多个弱模型来提升拟合能力,根据xgboost模型的优缺点我们可以充分挖掘可用特征。

我们再次整理上一节可用特征,主要有ID类特征(职能、行业、公司、技能、专业等);基本信息匹配特征(年龄,工作经验,学校等)该特征为二分类特征,以JD和CV的ID类特征是否匹配来构建二分类特征(如职能是否匹配等称为match特征),将这两类统称为硬性离散类特征;JD和CV类的graph embedding产生vector对计算余弦值作为连续特征(称为IDsim特征),加上文本相似性特征(称为textsim特征)和薪资组成连续特征。值得注意的是文本特征主要根据JD和CV的格式分为title 和description两个部分来挖掘。考虑到xgboost处理连续值的缺点我们将连续值进行分桶,桶数可由某维特征的分布来确定。将ID类特征也一同加入到树模型中,这是考虑到组合特征的业务意义。分析特征重要性之后,我们根据特征现象去做统计特征,比如出现频率统计,特征共现统计,多维特征多样性统计等操作。相对应的title和description 文本特征也可通过简单的加权命中率来构成特征加入到树模型中。

总之实验证明ID类特征,二分类特征,连续特征离散化,统计类特征,以及embedding产生的vector的交叉特征都会给模型带来正向收益。

3.2深度模型的探索>

深度模型对比树模型更加突出了非线性的拟合能力,以及高阶特征的交叉融合功能。但是带来的弊端就是模型的可解释性变差,根据结果反向特征工程变得困难起来。我们在JD和CV匹配场景下分别使用了DNN,Wide&Deep,DeepFM,等模型尝试。

同时并借鉴了PNN、DCN、DLRM和DKN网络原理正在适配适合现有数据类型的模型。本节主要简要介绍DNN和Wide&Deep,DeepFM的使用,再阐述对现有数据的思考。

YouTube的经典NN为开端(如图3,引用自相应论文),现有的数据下如何去使用DNN达到收益正是我们所考虑的。在现有的特征中除了上文提到的二分类特征,embedding相似性等特征之外我们包含知识图谱抽取的实体embedding和文本embedding。文本embedding主要有DSSM模型产生,双塔模型的输入分别为JD的title、description,CV工作经验的title、description,双塔输出为JD和CV是否匹配。我们以双塔的每坐塔的最后输出vector作为JD和CV的表征。本着论文中提到的原理我们去除了树模型中ID类特征,换成了ID对应的vector,保留原有的二分类和连续特征,另外在加入了文本embedding特征,最后的结果不是很乐观。因此分析原因可能是某些特征缺失ID(比如CV职能等)初始化为0导致,还存在的原因可能是由于ID vector的知识结构和文本embedding知识结构不同导致,此处知识结构可以理解为不同训练任务下的embedding空间结构。

图3

经历了DNN尝试没带来正向收益我们偏向于以线性和深度非线性结合的Wide&Deep结构(如图4)进行适配,此时我们考虑到DNN的实验产生的问题。

图4
我们并未直接加入由知识图谱产生的ID embedding和由文本DSSM模型产生的文本embedding的结果,我们采用ID类特征进行随机初始化的embedding在连接match,IDsim和textsim等特征作为deep的输入,将match,IDsim,textsim连接作为wide的输入。以输入ID类特征,match类特征,IDsim特征,textsim的xgboost模型作为wide&deep的比较模型,实验证明wide&deep模型略优于xgboost模型,但是如果对此基础上xgboost做统计特征则可超过wide&deep模型。以上可得deep模型非线性表征能力还是略微的比xgboost能力强。

经过wide&deep模型的实验基础上我们想更加利用交叉特征的功能,因此我们尝试了deepFM模型,deepFM模型结构图如图5所示(引用自deepFM相应论文),deepFM将wide&deep的wide部分替换成了FM机制提升了模型对特征的交叉组合能力。根据此模型特征我们将UID,图谱产生的ID类特征等稀疏特征输入FM部分,match特征、IDsim特征以及textsim特征为dense特征输入。结果很是令人欢喜,达到了以上实验的最优值,可能这就是深度学习带来的魅力吧。

图5
在喜悦的同时,我们想现有的ID初始化embedding都能产生如此大的魅力,利用graph embedding岂不更加喜人。在DeepFM模型输入基础上我们将ID的graph embedding也加入到模型的dense feature部分,然而实验证明并没有想当然的好,甚至产生了负作用。但至少证明了特征交叉能带来收益,至于graph embedding的加入为啥效果不好却是值得思考和探索的问题。

经过上面的探索我们获取了一些经验,例如交叉特征有用,用embedding产生的向量两两相似性计算对树模型有用,因此我们本着上面积累的经验进行了人工构建交叉特征作为xgboost模型的输入。在此基础上加入统计特征,这波操作再次给我们带来了0.5%的收益。

最后总结下模型方面的探索结果,以上实验说明我们还没有充分利用graph embedding 和由DSSM产出的文本embedding,也证明了embedding内涵的巨大作用,后期我们将加大力度去挖掘该部分的内容。

现阶段成果和未来展望

4.1现阶段成果>

经过上文特征和模型的探索在此我们分方案来展示我们的实验结果,分别包含以下方案:

  • 方案1:ID 类特征+match特征+IDsim特征+textsim特征+gbdt

  • 方案2:ID vector特征+match特征+IDsim特征+text vector特征+dnn

  • 方案3:ID 类特征(随机初始化embedding)+match特征+IDsim特征+textsim特征+deepFM

  • 方案4:ID类特征+match特征+IDsim特征+ID vector inner(交叉)特征+textsim特征+统计特征+gbdt

主要以这四种有效的递进关系来展示,其中多种的组合尝试就不一一列举了。效果如表格1中,我们的评价指标主要为正例的准确率,召回率,F1值和总的AUC值作为评价指标。

表1以上结果都为数据清洗特征工程后结果,本次数据量JD和CV对大致为86万,其中负例和正例比大致为7:1,我们将其随机分成8:1:1其中8成训练集、1成训练集和1成测试集。

4.2未来展望>

特征为王说法不无道理,在加入深度学习探索时应该思考数据质量与数据量是否能支持,在数据质量和量的保证下我们相信深度学习带来的魅力是巨大的。最近由Facebook出品的DLRM处理异构embedding的能力使我们跃跃欲试。另外由微软出品的DKN网络也证明了graph embedding所隐藏的信息量对推荐效果有很大帮助。文献5中结合知识图谱在电商环境下的推荐也使得我们相信充分挖掘embedding信息可以带来不错的收益。

作为以技术为驱动的企业,e成科技在AI技术的基础上,创新性地提出基于人才画像和岗位画像的匹配,为人岗匹配带来革命性变革。

文献引用:

[1] Chen T , Guestrin C . XGBoost: A Scalable Tree BoostingSystem[J]. 2016.
[2] Covington P, AdamsJ, Sargin E, et al. Deep Neural Networks for YouTube Recommendations[C].conference on recommender systems, 2016: 191-198.
[3] Cheng H, Koc L, Harmsen J, et al. Wide& Deep Learning for Recommender Systems[C]. conference on recommendersystems, 2016: 7-10.
[4] Guo H, Tang R, Ye Y, et al. DeepFM: AFactorization-Machine based Neural Network for CTR Prediction[J]. arXiv:Information Retrieval, 2017.
[5] Wang J, Huang P, Zhao H, et al.Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba[C].knowledge discovery and data mining, 2018: 839-848.
e成科技
e成科技

e成科技作为助力人才战略成功的AI平台, 开创性地将AI技术与人才战略升级场景深度结合,并基于画像和Bot(智能对话机器人),形成AI咨询、 AI招聘和AI产业三大支柱产品线,为企业和政府提供智能数字化决策解决方案。 e成科技始终秉持“打造人与任务新型连接平台” 的愿景,将“科技驱动人才升级” 作为自身使命不懈奋斗。

工程机器学习
1
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习排序技术

排序学习可以是监督,半监督或强化学习,用于构建信息检索系统的排名模型。训练数据通常为包含部分排序信息的列表,该排序通常表示为对每个物体都使用一个数字或序号表示的分数,或者是二元判断(相关或不相关)。排序模型的最终目的是得到可靠的排序,即便列表中的物体未曾出现过。常用的排序学习方法主要有:逐个的(PointWise),逐对的(PairWise)和逐列的(ListWise)。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

分桶技术

将一个特征(通常是连续特征)转换成多个二元特征(称为桶或箱),通常是根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱,将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱,并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

XGBoost技术

XGBoost是一个开源软件库,为C ++,Java,Python,R,和Julia提供了渐变增强框架。 它适用于Linux,Windows,MacOS。从项目描述来看,它旨在提供一个“可扩展,便携式和分布式的梯度提升(GBM,GBRT,GBDT)库”。 除了在一台机器上运行,它还支持分布式处理框架Apache Hadoop,Apache Spark和Apache Flink。 由于它是许多机器学习大赛中获胜团队的首选算法,因此它已经赢得了很多人的关注。

F1值技术

为了能够评价不同算法的优劣,在Precision和Recall的基础上提出了F1值的概念,来对Precision和Recall进行整体评价。F1的定义如下: F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

暂无评论
暂无评论~