机器之心编辑部编译

发文最多的机构与作者是谁?2018 ML和NLP学术会议统计

现在是时候更新去年机器学习和自然语言处理领域的论文发表统计数据了。这两个领域仍然在持续快速发展,无论是发表论文数还是参与学术会议的人数都打破了往年的记录。也许最值得注意的是 NeurIPS 大会门票在 11 分 38 秒内售罄的事件。本文将会提供详细的统计,展示在特定会议上研究者和机构发表论文的数量。

今年的统计数据包括以下会议/期刊:ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、NeurIPS、ICML、ICLR 和 AAAI。这种选择是为了覆盖机器学习和语言技术领域最知名和高级别的会议。和去年相比,我移除了 SemEval,因为它很大一部分是关注共享任务的论文,我在其它会议中也没有包括这些主题。此外,我添加了 AAAI,它在过去的排名中并没有出现。NeurIPS 去年改名了(原名为 NIPS),在这里将使用最新的名称。

这个分析是通过一系列脚本自动完成的,这些脚本多年来一直在不断改进。论文列表是从在线论文集中抓取的,通常也可以在那里找到作者姓名。组织名称需要直接从 PDF 中提取,这可能会导致相当多的噪声。我创建了各种方法来检测和映射不同类型的名称。

虽然这篇文章重点介绍了近年发表论文最多的研究者和组织,但我想指出,我不认为论文发表数量是一个领域应该追求或奖励的东西。如下图所示,该领域正变得越来越流行,而且论文数量的快速增长伴随着质量参差不齐。写一篇开创性的论文总比发布 10 篇完全可忘记的充数论文更好。这篇文章旨在对目前发表论文的研究者和组织以及发表会议的情况提供一个高级视图,说不定能为具有好创意的新研究人员提供一些灵感。

会议

我们首先看一下所有会议在 2012-2018 年间的论文发表数量。大多数机器学习会议的论文发表数都在继续增长,其中 AAAI 和 NeurIPS 超过了 1000 篇。EMNLP 和 NAACL 相比往届也有大幅增长,而 ACL 和 COLING 的发表数和往届差不多。EACL 今年没有举行,TACL 和 CL 的论文发表数多年来一直保持平稳。(注意图中为零的点表示会议在该年份没有举行。)

作者

下面,我们来看看 2018 年在这些大会上发表论文最多的作者。有三位研究人员的论文发表数量惊人,均为 22 篇。这三人分别是周明微软)、Graham Neubig(卡耐基梅隆大学)和 Sergey Levine(UC 伯克利)。紧随其后的是张潼(腾讯 AI,近期离职)、孙茂松(清华大学)和 Iryna Gurevych(达姆施塔特工业大学)。

从 2012-2018 年的总发表量来看,Chris Dyer(DeepMind)仍位居前列,一共发表了 97 篇论文。紧随其后的是周明微软)、Yoshua Bengio(蒙特利尔大学)、张岳(西湖大学)和 Noah A. Smith(华盛顿大学)。大部分作者都有所偏好,要么偏爱 NLP 领域,要么重点在核心 ML。只有 Percy Liang 大概是个例外,两边不偏不倚。

我们还可以查看每个作者在不同年份发表的论文数量。Chris Dyer 在 2015、2016 这两年的论文数增长幅度令人瞩目。

一作

接下来看一下关于一作的统计数据。前面所提到的作者大部分是团队领导人,而通常一作才是实际研究、做实验和撰写论文大部分内容的人。这类作者当中的佼佼者当属南洋理工大学的 Yi Tay。他已读博三年,2018 年在几个主要大会上共发表 10 篇一作论文。其次是微软研究院的朱泽园,共发表 6 篇一作论文。紧随其后的有香港大学的 Mikel Artetxe、Jiatao Gu,杜克大学的 Dinghan Shen 和康奈尔大学的 Nathan Kallus,每人亦发表 5 篇一作论文。

再看看总发表量,李纪为(香侬科技)发表了 22 篇一作论文。其后是朱泽园(微软)、Young-Bum Kim(亚马逊)、Ryan Cotterell(剑桥大学)和 Ivan Vulić(剑桥大学)。

组织机构

接下来是关于组织机构的统计数据。和前两年一样,CMU 仍位居榜首。谷歌和微软仍然是业界领头羊。清华、斯坦福、北大、MIT 和伯克利紧随其后。

值得一提的是,来自中国的机构中,清华大学、北京大学、中国科学院大学、中国科学院、上海交大、香港中文大学在发表论文最多的机构中名列前茅。其中清华大学名列第四,北京大学名列第六,中国科学院大学和中国科学院分别是第九和第十一。

我们再来看一下 2012-2018 年的组织排名,结果是类似的。CMU 仍然占据首位,微软和谷歌分列第二、第三位,和 2018 年的数据翻了个个儿。普林斯顿大学、法国国家信息与自动化研究所(INRIA)、杜克大学似乎主要关注核心机器学习,在 NLP 领域发表的文章很少。相反,清华、中科院和爱丁堡大学主要聚焦于语言应用。

从下图时间线中,我们可以看到 CMU 多年来维持大量的论文输出,且仍在继续增长。谷歌和微软竞争激烈,目前似乎谷歌稍占上风。中国大学(如清华、北大)目前的论文输出数量正在飞速增长。

主题聚类

最后,我对作者和机构进行了主题聚类。我收集了与特定作者/机构有关的所有论文,把它们统一处理为小写并 token 化,然后用 LDA 处理这些论文并用 t-SNE 进行可视化。排名靠前的论文实体有非常好的可视化结果,显示出了他们的论文内容与图中其他人内容的相似关系。

参考文章:

2018 年学术顶会:深度学习的江山如此多娇

2017 年的 10 大 AI 顶会,风起云涌的故事 | 机器之心年度盘点

参考原文:http://www.marekrei.com/blog/ml-and-nlp-publications-in-2018/

产业机器学习NLP学术会议
1
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~