高长宽作者

通过文本挖掘,我们发现了国家公务员考试的这些秘密

据中国新闻网报道,2020年度中央机关及其直属机构公务员招考笔试有超143万人报名,涉及中央和国家机关86个单位、23个直属机构,而计划招录2.4万人,通过资格审查人数与录用计划数之比约为60:1,在报名期间出现多个竞争超“千里挑一”的职位也就不足为奇了。

虽然笔者没参加过国家公务员考试(以下简称“国考”),但本着“内行看门道,外行看热闹”的心态,笔者想一个旁观者的视角,通过一些语义分析技术去发现近八年(2011~2018)国考行政职业能力测验(以下简称“行测”)考了哪些内容,看能否有一些规律性的发现。

数据来源

为保证分析的时效性,笔者仅搜集了2011-2018这八年的国考行测试题(将地市级和副省级试题进行合并),仅提取文本中的题干部分,不包含选项。
为了能直观的了解这8年的考题讲了啥,笔者首先从整体上提取其中的关键词。

“行程计算”类考题是重轴戏

以下是经过关键词提取得到的TOP150关键词的词云分布图,其中词汇大小反映的是词汇的重要性程度。
从上图中可以直观的看到,“速度”一词在近8年的国考试题中出现频率较高,说明“行程问题”在国考的试题类型中占较高比重,从如下示例中可以看出:
  • 小王步行的速度比跑步慢50%,跑步的速度比骑车慢50%。如果他...问小王跑步从A城到B城需要多少分钟 ;
  • 甲、乙两人计划从A地步行去B地,乙早上7︰00出发,匀速步行前往,...,为了追上乙,甲决定跑步前进,跑步的速度是乙步行速度的2.5倍,但每跑半小时都需要休息半小时,那么甲什么时候才能追上乙 ;
  • 如右图所示,甲乙两人从A、B两点同时出发,朝不同方向沿小路散步,已知甲的速度是乙的2倍。问以下哪个坐标图能准确描述两人之间的直线距离与时间的关系
权重较高的还有“数量”、“里程”、“价格”等关键词,也都反映出国考行测中的计算类型考题较多,国考行测中的数学运算部分,整体难度不大,通常用普通方法都是可以得到答案的,但相对而言,速度比较慢,而借用一些良好的技巧,则可以快速的得到答案。此外,近些年公务员考试中计算问题考侧重考查考生对常见方法技巧的理解、掌握与灵活运用。常用的方法有凑整法、尾数法、分组或消去法公式法和估算法。

Note

上述关键词的提取主要考虑以下4个重要因素:
  • 词频:一般词汇出现的次数越多,它的重要程度越高;
  • 位置:句首、句中还是句末,一般来说,句中的词汇权重会高一些;
  • 词性:名词、动词);
  • 词长:词汇的长度,一般来说,词汇的长度越长,好汉的语义信息越丰富,给的权重也更高一些。
尽管上面的关键词云图能抓住主要词汇,但是各词汇之间的关联性被忽略了,孤立的对某些关键词进行解读有时很难发现一些有意义的洞察。
那么,有没有一种方法能够既捕捉到关键信息(即发掘关键词),又能直观的反映出词汇之间的关联性?
答案是有的。

近八年所有题干的词汇关联图

词汇关联图是上述关键词云图的拓展和延伸 ,增加了语境这一维度,也就是将经常出现在同一个上下文的词汇的关联性表达出来。
基于自动聚类形成的词汇关联图,能自然的反映试题题干文本中的语义特征和潜在结构,由此能准确且清晰的知晓近八年国考行测的出题侧重点。

对于生成的可视化结果,可以这样解读:
  • 字体大小表示词汇的权重值大小,原理同上,能反映词汇在评论中的重要性
  • 不同的颜色代表不同的话题
  • 词汇之间距离越近,说明它们在同一语境中出现的频率较高,越具有语义相关性,比如“速度”、“执法船”、“行驶”、“小时”和“骑车”等词汇挨得很近,我们能迅速联想这些关键词跟试题中的“行程问题”有关,而不是跟政治、物理或者汽车有关。
下图是自动聚类出来的结果,自动聚为8个主题(点击下方图片可查看高清大图):

上图中,按照词汇及其簇群的重要性程度(字体大小、主题词数量)甄选出有意义的主题,根据其中的关键词可以推测这八年国考行测的4个热门考点,依次是:

  • 行程类:这类题一般涉及到路程、速度、时间三者的变化关系,主要反映在紫色系的词汇簇群中,从“速度”、“行驶”、“距离”、“骑车”等词汇可以看出;
  • 生物医学常识类:这类题主要考察应试者对于生物和医学相关常识的知识覆盖面,主要反映在深蓝色的词汇簇群中,从“抽搐”、“浮游植物”、“悬浮质”、“海水”等词汇可以看出;
  • 财政学类:这类题主要考察应试者在宏观经济相关指标的简单计算能力,主要反映在土黄色的词汇簇群中,从“交易规模”、“总额”、“水产品”、“同比增长”等词汇可以看出;
  • 场景计算类:这类题从应试者的生活、工作场景出发,考察应试者的基本计算能力,主要反映在青绿色和宝石蓝两个词汇簇群中,从“培训”、“部门”、“单位”、“平均年龄”、“概率”、“定价”和“余额”等词汇可以看出。
以上4类是笔者能够直观看出来的,其他的类别可能有过国考经历的小伙伴能识别出来,欢迎大家在评论区发言告诉我~

Note:

此处的词汇关联图基于HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)实现。相较于传统的聚类算法(K-means、Spectral clustering、Agglomerative clustering、DBSCAN等),它有如下3大优良特性:

  • 不需要设定聚类数,有算法自动算出来簇群数
  • 可以较好的处理数据中的噪音
  • 可以找到基于不同密度的簇(与DBSCAN不同),并且对参数的选择更加鲁棒(Robust,模型更加健壮)

最后,笔者还想看看历年的国考行测考题是否存在较大变动,可以将其抽象为一个文本挖掘任务 --- 度量历年国考行测试题之间的相似度,这可以通过对应分析实现。

近八年各年份试题的相似度度量

按照上述提取关键词的方法,分别提取近八年的国考行测试题题干中的TOP200关键词,这些关键信息足以代表该年份国考行测试题了,有了这些数据就可以进行对应分析。最终得到下图(点击下方图片可查看高清大图):

对于上图的可视化结果,可以这样解读:夹角越小的国考试题,代表试题内容相似度越高;其次,每个年份考题附近的关键词汇,离得越近,说明关键词在该年份试题中的重要性程度越高,也就越能代表试题的特征。由此,我们可以得到两个分析角度:
  • 从历年的考题内容相似度来看,2011年和2012年、2017年和2018年的试题内容相关度较高,也就意味着出题结构的连续性较好,以此类推,2013年度、2014年度、2015年度和2016年度的试题连续性也较好。与之相反的是,2012年度、2013年度的出题内容相似度较低,出题内容有一定的跳跃性。总体上来看,国考试题在出题内容上的连续性较好,只是偶尔出现变动。
  • 从历年试题的特征来看,2011年的人文特征较为明显,2018年的经济方面的试题较多,2018年的逻辑测试较突出,2015年的语言学方面出题较多,2016年的偏计算,其他年份的特征不甚突出。

Note:

对应分析法可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。比如不同年份的试题是不同类别,关键词汇是变量。对应分析图谱可以将这8年的试题相关度情况通过视觉上可以接受的定位图展现出来。

以上就是作为国考“外行”的笔者做的一些分析,由于仅提取出题干文本,文本数据量较少,难免会出现一些纰漏,而且对于有过国考经历的小伙伴来说,分析的结果可能还显得粗轮廓。
在这里,笔者想要对参加“中华第一考”、努力奋斗的中国考生们表达一下敬佩之情,特以“金榜题名”为主题(不是藏头诗)让机器赋诗4首,聊表敬意:
注:以上技术支持由达观数据提供。

作者介绍:

苏格兰折耳喵:达观数据高级解决方案经理。擅长数据分析和可视化表达,热衷于用数据发现洞察,指导实践。人人都是产品经理、PMCAFF专栏作家。(微信公众号:Social Listening与文本挖掘

达观数据
达观数据

达观数据是一家专注于文本智能处理技术的国家高新技术企业,获得2018年度中国人工智能领域最高奖项 “吴文俊人工智能科技奖”,也是本年度上海市唯一获奖企业。达观数据利用先进的自然语言理解、自然语言生成、知识图谱等技术,为大型企业和政府客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能软件系统,让计算机代替人工完成业务流程自动化,大幅度提高企业效率。

工程文本挖掘
3
相关数据
达观数据机构

达观数据是一家专注于文本智能处理技术的国家高新技术企业,先后获得中国人工智能领域最高奖 “吴文俊人工智能奖”、ACM CIKM算法竞赛全球冠军、EMI Hackathon数据竞赛全球冠军等荣誉。利用先进的自然语言处理(NLP)、光学字符识别(OCR)、知识图谱等技术,为大型企业和政府机构提供机器人流程自动化(RPA)、文档智能审阅、智能推荐等智能产品,让计算机协助人工完成业务流程自动化,大幅度提高企业效率。

https://www.datagrand.com/
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

联想集团机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

暂无评论
暂无评论~