Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

2021年ML和NLP学术统计:谷歌断层第一,强化学习大牛Sergey Levine位居榜首

这有一份关于 2021 年 ML 和 NLP 出版物的统计数据,并以可视化的方式进行展现,例如最高产的作者、机构、主题等。

2021 年是自然语言处理(NLP)和机器学习(ML)非常高产的一年,现在是时候统计一下去年 NLP 和 ML 领域的论文了。


来自剑桥大学机器学习自然语言处理的研究员 MAREK REI 总结分析了 2021 年经典论文,并归纳了 2021 年 ML 和 NLP 出版物的统计数据,他对人工智能行业的主要会议和期刊进行了分析,它们包括 ACL、EMNLP、NAACL、EACL、CoNLL、TACL、CL、NeurIPS、AAAI、ICLR、 ICML。

论文的分析是使用一系列自动化工具完成的,可能并不完美,会存在一些纰漏和错误。出于某些原因,一些作者开始以模糊的形式发布他们的论文,以防止任何形式的内容复制或自动提取内容,分析过程排除了这些论文。

现在我们看一下 MAREK REI 统计结果。


以学术会议统计

大多数会议的投稿量不断上升并打破纪录。ACL 似乎是一个例外, AAAI 几乎趋于平稳,而 NeurIPS 仍保持稳定增长。



以机构统计

2021 年发表论文数断层式领先的研究机构当属谷歌;微软排名第二;CMU、斯坦福大学、Meta 和 MIT 排名紧随其后,清华大学位居第七。微软、CAS、亚马逊、腾讯、剑桥、华盛顿和阿里巴巴在 NLP 会议上拥有相当大比例的论文脱颖而出,而其他顶级组织似乎主要关注 ML 领域。
 

从 2012-2021 年的数据来看,谷歌发表了 2170 篇论文位居第一,超过了微软发表的 2013 篇论文。CMU 发表了 1881 篇论文,排名第三。


大多数机构还在继续增加其年度出版物数量。谷歌发表论文数量以前呈线性增长,现在这一趋势有所缓解,但仍然比以前发表的论文多;CMU 去年有一个平台期,但今年已经弥补了这一点;IBM 似乎是唯一一家发表论文略有下滑的机构。



以作者统计

接下来,让我们看看 2021 年发表论文最多的研究人员。Sergey Levine(加州大学伯克利分校电气工程和计算机科学系助理教授)发表了 42 篇论文,排名第一;刘铁岩(微软)、周杰(清华大学)、Mohit Bansal(北卡罗来纳大学教堂山分校)、Graham Neubig(CMU)发表论文数量排名也比较靠前。



纵观 2012-2021 年,Sergey Levine 发表的论文位居榜首,去年他排名第六,今年一跃排名第一;Yoshua Bengio(蒙特利尔)、Graham Neubig (CMU)、张岳 (西湖大学)、周明 (创新工场首席科学家)、 Ting Liu (哈尔滨工业大学) 等人发表论文数量排名也比较靠前。


Sergey Levine 以相当大的优势创造了新的记录;Mohit Bansal 的论文数量也大幅增加,2021 年发表了 31 篇论文,与 Graham Neubig 持平;Yoshua Bengio 的论文数量在 2020 年有所减少,但现在又上升了。



以第一作者发表论文统计

发表论文数量最多的研究人员通常是博士后和导师。相比之下,以第一作者身份发表论文较多的通常是从事实际研究的人。

Ramit Sawhney(Tower Research Capital 技术总监)在 2021 年发表了 9 篇有影响力的论文,Jason Wei(谷歌)、Tiago Pimentel (剑桥大学博士生)分别发表了 6 篇比较有影响力的论文。



从 2012-2021 年分布来看,Ivan Vulić (剑桥大学)和 Zeyuan Allen-Zhu(微软)都以第一作者身份发表了 24 篇比较有影响力的论文,并列第一;Yi Tay (谷歌)和李纪为(香侬科技)排名第二,分别以第一作者身份发表了 23 篇和 22 篇论文比较有影响力的论文;Ilias Diakonikolas (威斯康星大学麦迪逊分校)以第一作者身份发表了 15 篇 NeurIPS 论文。



以国家统计

2021 年各国出版物数量,美国出版物数量最多,中国和英国分别位列第 2、第 3。在美国和英国,NeurIPS 所占比例最大,而 AAAI 在中国占比最大。

纵坐标从上到下分别为 500、1000、1500、2000、2500,依次类推


几乎所有排名靠前的国家都在继续增加其出版物数量,并在 2021 年创造了新的记录。对于美国来说,这一增长是最大的,进一步扩大了领先优势。



在美国,谷歌、微软和 CMU 再次位居出版数量之首。



在中国,清华大学、中国科学院和北京大学在 2021 年发表的论文最多。



以主题相关度统计

通过可视化得出,这些组织主要是根据地理位置的接近程度聚集在一起的,公司位于中间。


我们也可以将作者进行可视化,不过这种可视化有些难以理解。



以关键词统计

我们还可以绘制包含特定关键词的论文比例,并跟踪这一比例随时间的变化。

「neural」一词似乎有轻微的下降趋势,虽然你仍可以在 80% 的论文中见到它。同时,「recurrent」和「convolutional」的占比也在下降,而「transformer」一词出现在了 30% 以上的论文中。



如果单看「adversarial」一词,我们会发现它在 ICLR 中很常见,几乎一半的论文都提到了它。ICML 和 NeurIPS 中的「adversarial」比例似乎之前已经达到顶峰,而 AAAI 还没有。


在过去的几年里,「transformer」一词变得非常流行。它在 NLP 论文中应用尤其广泛,超过 50% 的已发表论文都包含它,在所有的 ML 会议中,它的受欢迎程度也在稳步上升。



MAREK REI 之前还做过相关统计分析,大家看看都有哪些变化:

发文最多的机构与作者是谁?2018 ML 和 NLP 学术会议统计
2017 机器学习自然语言处理学术全景图:多产的作者与机构都是谁?

原文链接:https://www.marekrei.com/blog/ml-and-nlp-publications-in-2021/
理论机器学习自然语言处理
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

刘铁岩人物

刘铁岩博士毕业于清华大学电子工程系。现任微软亚洲研究院主任研究员,互联网经济与计算广告学研究组负责人。他是美国计算机学会(ACM)、国际电子电气工程师学会(IEEE)、和中国计算机学会(CCF)的高级会员。中国科技大学和南开大学的客座教授。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
创新工场机构

创新工场由李开复博士创办于2009年9月,作为国内的创业投资机构,创新工场深耕在人工智能&大数据、消费和互联网、B2B&企业升级、教育、医疗等领域,并不断探索与创新,致力于打造集创业平台、资金支持、投后服务等的全方位生态投资服务平台。

http://www.chuangxin.com/
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~