AMiner新功能:技术趋势分析—挖掘技术源头、近期热度和全局热度

AMiner (http://aminer.org)是科研人员和知识图谱为中心的科技情报智能挖掘系统。系统基于机器学习、自然语言处理、数据挖掘、社会网络分析以及语义搜索等技术,实现了科技情报网络的语义化和智能化搜索。系统相关技术获得北京市科技进步一等奖和中国人工智能学会科技进步一等奖。系统上线运行超过十年,用户超过1000万,覆盖全球220个国家和地区。

技术趋势分析

近日,AMiner开放了一个全新功能:技术趋势分析(http://trend.aminer.cn)。

该功能基于AMiner超过2亿篇论文数据进行深入挖掘,包括对技术来源、热度、发展趋势进行研究,进而预测未来的技术前景。

技术趋势分析的方法

技术趋势分析描述了技术的出现、变迁和消亡的全过程,它可以帮助研究人员理解领域的研究历史和现状,快速识别研究的前沿热点问题。学者运用统计分析、模型构建、AHP等方法对技术发展路径进行了一系列研究,这些方法大多是偏重于专家德尔菲法的定性分析,重点在于指标的设定,缺乏定量数据分析。另有一些研究者利用专利主路径分析研究技术的变迁,然而较少考虑技术主题随着时间的继承、分裂和融合。基于数据挖掘的主题变迁通过挖掘深层次的科技文本语义信息,能够有效的解决这一问题。

主题变迁是指一个领域的研究主题的内容和热度随着时间变化的现象,通过识别并关联不同时间片的技术主题,探索和分析领域主题变迁并通过可视化的方式进行展示,可以从更全面的视角感知技术的演进,对于技术发展路径识别具有重要意义。

技术流程

基于科技知识图谱,AMiner以可视化的方式,对查询领域q的热度演化趋势进行总结。

具体而言,某一技术领域q的热度,可以定义为该技术相关术语集合T q = {t} 在y年中的所有文献内的词频数。在这一设定下,问题的关键在于如何定位一个技术领域所相关的术语集合。AMiner将领域术语集合定义为该领域内专家常用的关键词。其具体算法流程如下:

首先

根据输入的领域查询词q进行专家搜索,得到候选专家集合{A}q。

其次

对候选{A}q根据与q的相关度和该专家的权威度(见公式(6-1))进行排序。取出排序结果中的前K个专家{A}K q作为分析对象。

最后

获取{A}K q 中每位专家历年的研究成果,分别抽取关键词,构成术语集合T q。进而,技术趋势分析被转化为针对术语集合T q 热度的分析。

相关研究

主题识别

主题识别是指利对领域文献进行挖掘,以发现其中隐含的研究主题。随着文献爆发式增长,主题识别面临着文本维度高和数据类型复杂的挑战,传统的基于专家知识的定性方法不再适应现实情况,基于机器学习的自动化识别逐渐成为主流。目前研究人员针对自动主题识别提出了许多方法和模型,其中主题模型已经成为技术主题识别领域最常用的方法模型。

专家学者是科学研究的主体,一些杰出学者往往引领着学科的发展,可以通过挖掘杰出学者公开发表的科技文献,发现科学领域的主要研究主题以及主题之间的联系。一些关键词被某一学者在发表的文章中提及,可能表明这些关键词之间存在一定的关联关系;如果这些关键词被不同的作者提及,可能说明不同作者认可这些关键词之间的关联关系,可认为这些关键词能够构成研究主题。如果某个关键词在作者的文章中多次出现,可以表明作者对关键词所代表的研究主题做了大量研究,并间接说明作者对该领域具有一定的影响力。

主题关联和可视化

为了分析技术主题变迁,通常需要根据发表时间将文献划分到相应的时间片内,通过文本挖掘获得不同时间片上的主题,将这些主题关联起来是主题变迁的核心步骤,主题能否关联决定着主题之间是否存在变迁关系。崔凯等利用KL相对熵来度量主题之间差异性,李湘东等利用JS距离对期刊主题相似度进行衡量。为了便于直观了解技术发展路径,主题关联需要进行可视化展示,主题关联和可视化关系密不可分,可视化是为了更好的主题变迁分析,并可以展示技术发展路径。

现有的路径可视化工具众多,其中陈超美基于java开发出Citespace I和Citespace Ⅱ,这两款软件具有时序分割,同被引分析、时序网络可视化等功能。Susan Havre等推出ThemeRiver模型,用于反应文档主题强度信息的变化过程。微软亚洲研究院提出TextFlow方法,在海量文本分析中引入主题合并和分裂的信息。

具体分析

我们将为大家展示AMiner中技术趋势分析系统的Answer machine领域的界面截图。在该系统中,术语集合的热度被可视化地展示为Sorted Stream Graph的形式。

其中,图中的每个彩色分支表示一个术语,其宽度表示该术语在当年的热度,各分支在每一年份在图中按照其热度进行排序。

系统包括三个视图:技术源头、近期热度和全局热度,用于展示领域发展的开端和现状,以及相关领域热度的变化趋势。

Answer machine 技术源头图

从图中可以观察到,综合来看,Answer machine 由language generation、knowledge engineering、text planning、text classification等领域演化而来。在1971年至1981年十年间,该领域的来源关键词主要是knowledge engineering,此后关键词逐渐多元化,language generation和text planning开始加入进来。

Answer machine 全局热度图

全局热度展示了该领域相关术语在所有年份上的平均热度,综合来看,Answer machine 的全局热度包含了question answering、community question answering、machine translation和Neural Network等关键词。

我们还可以看出,machine translation这一概念自二十世纪九十年代开始兴起,但是于2000年前后热度下降。这是由于information retrieval、question answering和Support Vector Machine等技术与其竞争导致的。并且question answering在2001年至2010年间呈现爆发式地增长。

Answer machine 近期热度图

上图为该领域近期热度,综合来看,近期Answer machine的热点集中在question answering、community question answering、machine translation和Neural Network等关键词,与全局热度图是相似的。

技术趋势分析这一功能可以帮助用户了解技术的来龙去脉,技术发展趋势。技术趋势的发展是科技工作者和科研管理部门必须要考虑的因素。实时的分析技术的发展趋势,了解领域动态,并且实时的分析趋势发展中各个国家的分析和对比,及时的了解学科发展状况,领跑,并跑还是跟跑。

我就想问大家有没有心动?想不想用?

网址: http://trend.aminer.cn

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
入门文本挖掘主题模型机器学习知识图谱数据挖掘
1
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

主题模型技术

主题模型(Topic Model)在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

相对熵技术

相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD)[1],信息散度(information divergence),信息增益(information gain)。 KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

推荐文章
暂无评论
暂无评论~