在未来,机器学习与自然语言处理还会碰撞出哪些火花?

AMiner全新功能技术趋势分析Trend analysis(http://trend.aminer.cn)基于AMiner 2亿篇论文数据进行深入挖掘,包括对技术来源、热度、发展趋势进行研究,进而预测未来的技术前景。技术趋势分析描述了技术的出现、变迁和消亡的全过程,可以帮助研究人员理解领域的研究历史和现状,快速识别研究的前沿热点问题。

机器学习(machine learning)是一门多领域交叉学科,设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

从历史来看,机器学习人工智能研究较为年轻的分支,似乎也是人工智能中发展最快的分支之一。一般认为,它的发展过程大体上可分为4个时期:

第一阶段  20世纪50年代中叶到60年代中叶,属于热烈时期。

第二阶段  20世纪60年代中叶至70年代中叶,被称为机器学习的冷静时期。

第三阶段 20世纪70年代中叶至80年代中叶,称为复兴时期。

第四阶段 机器学习开始于1986年,目前我们仍处在这个时期。

本文基于AMiner全新功能技术趋势分析Trend analysis和笛卡尔乘积热点挖掘,将为大家解读机器学习领域进行的趋势分析以及机器学习自然语言处理域的交叉趋势分析。

机器学习趋势分析

下面我们将用Trend analysis分析机器学习领域内的研究热点。下图是当前该领域的热点技术趋势分析,通过Trend analysis分析挖掘可以发现当前该领域的热点研究话题Top10如下:

  • machine learning

  • brain computer interface

  • artificial intelligence

  • support vector machine

  • gaussian process

  • missing data

  • image classification

  • social network

  • data mining

  • computer science

根据Trend analysis的分析我们可以发现,该领域当前最热门的话题是machine learning,从全局热度来看,machine learning的话题热度虽然有所起伏但从20世纪90年代至今其话题热度始终保持在Top 1,论文的发表数量也较多;brain computer interface的研究热度从2003年开始迅速上升,近几年话题热度更是超越support vector machine成为top 2 话题;另外,近期multi task learning 的话题热度开始逐渐上升。

通用机器学习技术奠基人之一的Thomas G. Dietterich在2000年发表的“Ensemble Methods in Machine Learning”回顾了集合方法并解释了为什么聚类通常比任何一个分类器都表现更好。

Thomas G. Dietterich的研究贡献主要包括将纠错输出编码应用于多类分类问题,他发明了多示例学习、层次强化学习MAXQ框架及将非参数回归树整合到概率图模型中的方法。此外,Dietterich教授也参与撰写了美国白宫发布的两份重磅AI报告《为人工智能的未来做准备》和《美国国家人工智能研究与发展策略规划》。

机器学习&自然语言处理交叉趋势分析

我们选取自然语言处理域近期热度与全局热度最高,相关性最强的9个相关领域作为研究对象,具体包括:

  1. Natural Language Processing

  2. Machine Translation

  3. Text Corpus

  4. Language Modeling

  5. Treebank

  6. Nist

  7. SemanticLabeling

  8. Word Segmentation

  9. Shallow Parsing

通过对两个领域的知识图谱的计算,再对两领域的细分子领域进行笛卡尔乘积热点挖掘,本文挖掘了历史数据分析和未来趋势预测两部分

本文主要探讨2007年至今的研究状况;趋势预测仅以未来3年为周期来探讨。

“ 领域交叉热力值由交叉研究的论文的citation等数据加权计算得出,热力值越高,表明这个两个交叉子领域交叉研究的越深入和广泛。”

每个交叉热点中的研究学者,发表论文,中外学者和论文对比等数据均可以获得。用作展示时,研究学者和论文分别按照交叉领域研究影响度和论文相关度作为默认排序。

  • 学者研究影响度由交叉领域内论文量,h-index等计算得出;

  • 论文相关度由交叉领域内论文的关联程度和引用数量等计算得出。

  • 对比分析中“中外研究人员对比”和“中外研究论文对比”是专家数量和论文数量的直接对比;

  • 而“中外论文影响对比”是论文citation值的对比。

历史热点图

2007年至今 机器学习领域与自然语言处理领域交叉分析热点图

2007年至今,全球共有10019位专家投入了机器学习自然语言处理领域的交叉研究中,其中华人专家1754人,约占17.51%,共产生交叉研究论4310篇。学者H-index分布和Citation分布如下:

h-index

专家人数

分布占比

小于10

7141

71.27%

10~20

1356

13.53%

20~40

1028

10.26%

大于40

315

3.14%

总计

10019

100%

2007年至今 机器学习领域与自然语言处理领域交叉研究学者h-index分布

citation

专家人数

分布占比

小于10

1836

42.60%

1~10

1328

30.81%

10~100

999

23.18%

100~200

81

1.88%

大于200

66

1.53%

总计

4310

100%

2007年至今 机器学习领域与自然语言处理领域交叉研究论文citation分布

历史交叉领域TOP5

  1. machine learning & natural language processing

  2. Supervised Learning & natural language processing

  3. Regularization& natural language processing

  4. machinelearning & Machine Translation

  5. Unsupervised Learning & natural language processing

我们选取历史交叉领域TOP5中的第一个:machine learning与natural language processing→机器学习领域与自然语言处理领域,进行详细的交叉研究分析。

机器学习领域与自然语言处理领域相关性最高的5位作者如下所示:

Michael I. Jordan

Geoffrey Hinton

Eric P. Xing

Hongjie Dai

Xin Li

机器学习领域与自然语言处理领域相关性最高的5篇论文如下所示:

题目:The Case for VM-Based Cloudlets in Mobile  Computing

会议/期刊:IEEE Pervasive Computing 

年份:2009

引用量:2583

作者:Mahadev Satyanarayanan,Paramvir Bahl,Ramon Caceres,Nigel Davies


题目:Cheap and fast---but is it good evaluating  non-expert annotations for natural language tasks

会议/期刊:EMNLP

年份:2008

引用量:1770

作者:Rion Snow,Brendan O'Connor,Daniel Jurafsky,Andrew Y. Ng


题目:Deep Learning: Methods and Applications

会议/期刊:Foundations and Trends in Signal Processing

年份:2014

引用量:1368

作者:Li Deng,Dong Yu


题目:The Unreasonable Effectiveness of Data

会议/期刊:IEEE Intelligent Systems

年份:2009

引用量:873

作者:Alon Y. Halevy,Peter Norvig,Fernando Pereira


题目:A survey of modern authorship attribution methods

会议/期刊:JASIST

年份:2009

引用量:1149

作者:Efstathios Stamatatos


机器学习&自然语言处理历史研究数据对比

机器学习领域与自然语言处理领域历史论文数据

机器学习领域与自然语言处理领域历史专家数据

机器学习&自然语言处理中美对比

机器学习领域与自然语言处理领域中美研究人员对比

机器学习领域与自然语言处理领域中美论文对比

机器学习领域与自然语言处理领域研究中,领先的国家分别是:

  1. 美国🇺🇸

  2. 中国🇨🇳

  3. 日本🇯🇵

  4. 印度🇮🇳

  5. 加拿大🇨🇦

  6. 英国🇬🇧

  7. 德国🇩🇪

  8. 意大利🇮🇹

  9. 法国🇫🇷

机器学习领域与自然语言处理领域研究中,全球主要研究机构是:

  1. 哥伦比亚大学

  2. 微软研究院

  3. 锡拉丘兹大学

  4. 美国国家医学图书馆

  5. 中国科学院

  6. 北京理工大学

  7. 东京大学

  8. 科罗拉多大学

  9. 东京大学

  10. 卡内基梅隆大学

未来趋势预测

预测未来三年内运用交叉较高领域:

1.machine learning & natural language processing

2.Recurrent Neural Network & Language Modeling

3.Deep Learning & natural language processing

4.machine learning & Language Modeling

5.Topic Modeling & Machine Translation

AMiner预测机器学习领域与自然语言处理领域未来三年热点图如下图所示:

机器学习领域与自然语言处理领域交叉热点预测

机器学习人工智能的核心,应用遍及人工智能的各个领域,目前机器学习已经在数据挖掘计算机视觉自然语言处理、生物特征识别、搜索引擎、DNA序列测序、战略游戏和机器人等多个方面都得到了运用,在未来,它的应用将会得到更多的拓展。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业自然语言处理机器学习
1
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

回归树技术

回归树可以被视为决策树的变体,旨在逼近实值函数,而不是用于分类方法。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

分析机技术

分析机是由英国数学家查尔斯·巴贝奇设计的一种机械式通用计算机。从1837年首次提出这种机器的设计,一直到他去世的1871年,由于种种原因,这种机器并没有被真正的制造出来。但它本身的设计逻辑却十分先进,是大约100年后电子通用计算机的先驱。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~