学术君作者

南京人才地图出炉,材料技术、生物医药、人工智能、集成电路领域成特色优势

对于南京,你的第一印象是什么?

对于南京市近年来出台的各项人才政策,你的感受又如何?

你有想过去南京生活吗?
来源:PixaBay
当今时代,国际竞争、国内竞争、城市竞争、企业竞争,归根到底是人才的竞争。也许,大家或多或少都能从各种渠道,对南京这座古老又现代的城市有所了解。但是今天,学术君就带领大家一起通过 AI+大数据,了解一下南京的人才现状和人才环境。

众所周知,过去三十年,南京集聚了优质学者人才,不断推动着南京综合实力和核心竞争力的增长。而根据不久前,智谱·AI 在清华校友三创大赛颁奖典礼暨南京中华门创将创新成果大会上发布的《宁聚宁需人才地图》,过去五年,南京凝聚了江苏省内重点领域大部分的高端人才。

其中,南京的生物医药领域高层次人才凝聚最多,约占江苏省 28%,占全国 2%;南京的人工智能领域高层次人才第二,约占江苏省 52%,约占全国 3%;南京的集成电路领域高层次人才第三,约占江苏省 62%,约占全国 4%。

从重点领域来看,南京高端科技人才在材料领域的数量最多,在人工智能、新能源汽车和智能电网领域较强。其中,人工智能领域,南京市关键人才数量前十的机构之中,南京大学的高层次学者数量最多,为 48 位,论文总发表量和被引用数也最高。
《宁聚宁需人才地图》

《宁聚宁需人才地图》是智谱·AI 借助科技情报大数据挖掘与服务系统平台 AMiner,针对南京重点发展科技领域(材料技术、生物医药、人工智能、集成电路、新能源汽车、智能制造、智能电网)建立的智慧人才系统。

该系统选取近 5 年期间相关领域国际顶级期刊和会议所收录的全部论文数据,通过挖掘和分析论文数据,获取论文学者信息;通过命名排歧和信息抽取等大数据分析和挖掘技术,对重点科技领域的专家学者进行学者画像,构建领域人才智库,然后根据学者画像信息进行领域人才相关情报挖掘分析。

从图中我们可以看到人工智能、生物医药、材料技术、集成电路等等多个当下热门领域的多方面信息。所呈现的数据点面结合,既包括南京该领域的人才动态、城市人才分布、南京人才机构排名,也有该领域的全国人才分布、全国发展情况以及南京与省份城市的影响力对比。
南京市人才影响力
南京市与其他省份中心城市人才与产业能力比较
南京市人工智能领域人才指数
人工智能领域,南京市的人才健康指数在全国排行第三,人才主要集中在栖霞区与玄武区;在基础科研影响力上较为突出,南京大学和东南大学在该领域人才数量较多、成果影响较大。数据挖掘”、“特征提取”、“人脸识别”等词是该城市该领域的科研热点。
南京市生物医药领域人才指数
在生物医药领域,南京市的人才健康指数在全国排名第四,人才主要集中在栖霞区与江宁区;在基础研究热度与基础科研影响力上较为突出,在该领域的人才机构排名中,南京大学一骑绝尘。“细胞凋零”、“细胞周期”、“非小细胞肺癌”等词是该城市该领域的研究热点。
南京市材料技术领域人才指数
在材料技术领域,南京市的人才健康指数在全国排名第三,人才主要集中在栖霞区;在基础科研影响力上较为突出,产业创新方面稍弱,在该领域的人才机构排名中,南京大学和东南大学在该领域人才数量较多、成果影响较大。“数值模拟”、“晶体结构”、“透射电子显微镜”等词是该城市该领域的研究热点。
南京市集成电路领域人才指数
在集成电路领域,南京市的人才健康指数在全国排名第二,仅次于北京,人才主要集中在栖霞区、秦淮区和玄武区;在基础科研影响力和产业创新上较为突出,在该领域的人才机构排名中,东南大学和南京大学名列前茅。“无线通信”、“Mimo 通信”、“正交频分复用”等词是该城市该领域的研究热点。

此外,科技情报大数据挖掘与服务系统平台 AMiner 还结合人工智能学术知识图谱,深度挖掘了目前南京各个领域学者的职业生涯信息。感兴趣的读者可以访问 AMiner 平台进行查看。

那么,这么详细、可视化的人才地图,是怎么做出来的呢?

学术君也和《宁聚宁需人才地图》背后的研发团队进行了交流。研究人员指出,该智慧人才系统依托清华大学高质量大规模知识图谱、深度隐含关联挖掘算法和认知图谱等核心技术,服务地方科技产业发展,展示符合地方发展方向的本地、全国和全球人才分布态势、人才流动趋势,可以为地方人才引进工作中的寻、评、引、用提供基于大数据的智能化支持,构建全球人才 GPS,实现人才工作的按图索骥。

以下为智谱.AI 研发人员对学术君问题的回答:

Q:在进行不同领域人才相关情报挖掘分析的时候,运用了哪些 AI 算法?

A:使用 AMiner 库中学者论文信息数据, 我们主要使用了下面两类算法应用对学者进行领域分析标注,其中包含多个 NLP 算法。

(1)利用 AMiner 学科知识图谱:先对学者的发表论文中的实体,关系等信息进行抽取(其中实体抽取方法使用 word2vec+LSTM+CRF 和规则匹配,关系抽取采用多种方式结合:包括规则和远程监督),再利用已构建的学科知识图谱推理对学者进行领域标注。

(2)领域标注系统:这是一个以深度学习为核心算法的多标签标注系统,算法网络结构简单说明:先用 bert 对学者多篇代表性论文进行 Emmbedding,再使用多个的局部 Attention 层和全局 Attention 层进行特征的融合和提取,最后基于这些语义特征向量进行标签预测,即对学者进行领域的标注。

Q2:在收集近 5 年论文数据的时候,主要以什么为基准

A:AMiner 库的期刊会议数据覆盖多领域,这些期刊数据具有一定影响力和代表性,并且持续更新维护;这些期刊会议通过专家和算法的标注所属领域,并且定期更新该期刊会议所在领域的影响力。我们在收集学者代表性论文数据时,就是利用这些具有领域代表性和高影响力的期刊会议进行论文的收集。

Q:《宁聚宁需人才地图》运用大数据技术并通过数据可视化的方式呈现给读者,这种方式在推动城市未来科技发展中有什么作用?这些技术还可以用在哪些领域?

A:人才地图依托高质量大规模知识图谱、深度隐含关联挖掘算法和认知图谱等核心技术,服务地方科技产业发展,展示符合地方发展方向的本地、全国乃至全球人才分布态势、人才流动趋势。下一步我们预计会针对长三角(护航苏宁常等)和深圳的人工智能、新材料、生物医药等领域,基于大数据的智能化支持,建构更进一步的人才 GPS。相关技术在其他应用领域应用也用很多,例如工业系统运行监控,社交网络信息分析等。

Q:在系统中的“科研热点”板块:所展示的文本数据是用什么模型学习得到?训练这个模型需要花费多少时间呢?是否对比了不同的模型效果?

A:“科研热点”板块,实质上是文本关键词抽取。这里的抽取算法的主要思想是利用词向量与所在文本向量的近似程度作为是否抽取的依据,并且累加每个词的近似得分,作为可视化突出显示的依据。用到的主要的模型是 word2vec。然后再使用 Spherical K-means, 以及首尾 N-Gram 联想等算法进行领域匹配优化,使抽取的关键词达到最优。

对于这个文本抽取模型,训练数据量大概是1亿篇左右的论文摘要。模型的训练时间是20 小时左右。

我们的模型与常用的开源抽取关键词工具(如:TextRank,Jieba,NLTK 等)比较,具有如下 3 个效果的明显提升:
  1. 更具学术领域针对性。常用的抽词工具的训练数据,通常使用的是通用文本数据,使得结果集中包含大量的非学术性词汇。测试结果,学术研究领域关键词抽取准确率提升 32%。
  2. 对英文关键短语的抽取,效果明显好于常用开源工具。测试结果,学术研究领域关键短语抽取召回率提升 45%。
  3. 算法流程的最后,会对于抽取结果会利用学科领域知识图谱进行一轮筛选和排序,以提高所展示的词与领域的匹配度。

来源:

智谱.AI 智慧人才
http://talent.zhipu.ai/

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业南京
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码,以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化,例如进行比较或理解因果关系,并且图形的设计原则(即,显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

远程监督技术

该方法由 M Mintz 于 ACL2009 上首次提出,与传统预先定义关系类别不同,Distant Supervision 通过将知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。

东南大学机构
推荐文章
暂无评论
暂无评论~