EMNLP2019最佳论文揭晓,约翰霍普金斯大学华人作者与NLP大牛Jason Eisner获奖

2019年EMNLP自然语言处理实证方法会议(Conference on Empirical Methods in Natural Language Processing)于 11 月 8 日在中国香港闭幕。

本届大会举办了18场 Workshops 、多个Tutorials和主题丰富的会议活动,吸引了超过1922人参会。KAIST计算机学院副教授Meeyoung Cha、纽约大学计算机科学和数据科学副教授Kyunghyun Cho以及IBM Research AI工程师Noam Slonim等知名大咖围绕计算机社会科学、AI系统、深度学习等主题发表演讲。

本届大会主席为日本东北大学教授 Kentaro Inui,程序委员会三名华人主席分别是新加坡管理大学蒋静副教授、德克萨斯大学达拉斯分校Vincent Ng教授、北京大学万小军教授。


详解EMNLP2019

作为自然语言处理领域的顶会之一, EMNLP2019共接收论文683篇。其中465篇长论文,Oral 报告 164 篇,Poster 301 篇,接收率为25.6%。218篇短论文,Oral 48 篇,Poster 170 篇,接收率为20.5%。总接收率为 23.7%,相比去年 24.6% 的接收率略有下降。

EMNLP2019接收论文的分数分布情况如下。可以看出,想要在EMNLP2019发表一篇论文是相当的不容易。去年分数在 3.67分 及以上的论文很少被拒,而今年得到3.67分的论文仍有 30% 以上被拒,要得到 3.83 分才比较保险,这一结果也反映出了NLP研究激烈的竞争程度。

从投稿领域看,EMNLP2019投稿量排名前三的分别为Machine Learning for NLP、Summarization and Generation与Machine Translation & Mulitlinguality。这三个领域也是被接收论文数量最多的三个领域,都有50篇以上论文。

从投稿国家看,EMNLP2019中国和美国提交的论文最多,中国提交了近1000篇论文,美国也有近900篇论文提交。提交论文TOP5的国家如下图所示。

最终,美国成为本届大会被接收论文最多的国家,大概有260篇。中国位居第二,约有200篇论文被录用。

英国约有40篇论文被录用,排在第三位。日本和德国相差不大,都有20篇以上被录用,排在第四位。印度、加拿大、韩国、法国、新加坡、以色列、澳大利亚也都有不错的表现,位于被接收论文TOP10国家榜单之中。

从作者维度分析被接收的683篇论文,总共来自2186位科研人员。其中有1777位作者1篇入选, 255位作者2篇入选,80位作者3篇入选,36位4篇入选,8位5篇入选,10位6篇入选,4位7篇入选。

单人7篇以上论文入选的共有9人。

只有1位作者有9篇入选。这位大牛就是国内NLP领域的领军人物--哈尔滨工业大学刘挺教授。刘挺是哈工大人工智能研究院副院长、计算机学院社会计算与信息检索研究中心主任。他还是国家「万人计划」科技创新领军人才,教育部人工智能科技创新专家组成员,主要研究方向为人工智能自然语言处理和社会计算。其所带领的哈工大社会计算与信息检索研究中心(HIT-SCIR)是目前国内顶尖的 NLP 研究机构之一。

刘挺

腾讯人工智能实验室(AI Lab)自然语言处理中心研究主管史树明、华盛顿大学计算机科学与工程 Paul G. Allen学院副教授Luke Zettlemoyer、阿里巴巴达摩学院新加坡机器智能技术研发中心的高级算法工程师邴立东、北京大学计算机研究所研究员赵东岩都有8篇论文入选。

清华大学计算机系刘知远副教授、腾讯AI Lab高级研究员涂兆鹏博士、南加州大学计算机系助理教授任翔、华盛顿大学计算机科学与工程Paul G. Allen学院的教授Noah Smith 都有7篇论文入选。而Noah Smith、刘知远过去几年在EMNLP都一直有较高的产出。

按照每篇论文的作者个数统计,4人署名文章最多,共有153篇;其次是是3人与5人,各有147和128篇。另外,还有11篇论文拥有唯一作者,还有1篇竟有24人署名。

按照第一作者入选论文篇数统计,共有27位研究人员以一作身份发文2篇。还有1位作者以一作身份发文三篇,他是来自清华大学电子工程系的博士生武楚涵。

另外更牛的一位是来自卡内基梅隆大学计算机科学系的博士生Dongyeop KANG,以一作身份在EMNLP2019发文四篇。此前,他曾在Facebook AI,艾伦人工智能研究所和Microsoft Research以及韩国KAIST研究所实习,被选为NeurIPS18和ACL18的顶级审稿人。他的研究方向包括自然语言处理、计算语言学机器学习等。

Dongyeop KANG

从入选论文所属机构来看,在国外研究界与工业界中,卡内基梅隆大学、艾伦人工智能研究所、爱丁堡大学、加利福尼亚大学、华盛顿大学等论文入选数位居前列,工业界谷歌、Facebook、微软IBM等依然占据霸主地位。

国内高校中,北京大学、清华大学、哈尔滨工业大学、北京航空航天大学、浙江大学、中山大学、北京理工大学的论文录取数量都排在前列。国内工业界,阿里巴巴腾讯等企业表现不俗。

总而言之,经过几年的激烈PK,人工智能技术竞争格局的已初步成形,那就是谷歌的霸主地位几乎难以撼动,不过其他战队也出手不凡找到了各自的差异化突破路径。

同时,国内AI力量也保持强劲的发展势头。在近两年的AI顶会上,不论是学术界还是工业界都能看到国人的亮眼表现。


最佳论文奖

EMNLP 2019 也于今日下午公布了最佳论文获奖名单,四篇论文分获两个最佳长论文奖、一个最佳资源论文奖和一个最佳Demo奖。

EMNLP-IJCNLP 2019 Best Paper

Specializing Word Embeddings (for Parsing) by Information Bottleneck

作者:Xiang Lisa Li, Jason Eisner

论文地址:https://www.aclweb.org/anthology/D19-1276.pdf

最佳论文奖一作是来自约翰霍普金斯大学计算机科学系的Xiang Lisa Li,他的导师则是NLP界公认的大神Jason Eisner,他对NLP结构学习领域的贡献极大,曾获得ACL2017年最佳长论文奖。

论文获奖理由是:这篇论文有很好的理论论证与结果,是对预训练词嵌入上使用变差信息瓶颈(Variational Information Bottleneck)的新颖应用。它是很好的语言分析,可能对很多任务都有很大的帮助。

EMNLP-IJCNLP 2019 Best Paper Runner-UP

Designing and Interpreting Probes with Control Tasks

作者:John Hewitt, Percy Liang

地址:https://www.aclweb.org/anthology/D19-1275.pdf

Best Paper Runner-UP的一作来自斯坦福大学,其导师Percy Liang是斯坦福大学计算机系助理教授,曾获得2016年IJCAI计算机和思想奖,Liang可以称得上是机器学习自然语言处理领域日益崛起的新星,多年来获得了无数学术奖项。John Hewitt的联合导师还有计算语言学的大牛、斯坦福AI Lab主任 Chris Manning。

这篇论文的获奖理由,它是一篇具有深远影响力的论文,它介绍了如何设计、训练、解释探针,以便更全面地评估某种表征对给定任务(如POS标记或依赖性解析)的学习效果。

EMNLP-IJCNLP 2019 Best Resource Paper

The FLORES Evaluation Datasets for Low-Resource Machine Translation: Nepali–English and Sinhala–English

论文作者:Francisco Guzmán, Peng-Jen Chen, Myle Ott, Juan Pino, Guillaume Lample, Philipp Koehn, Vishrav Chaudhary, Marc’Aurelio Ranzato

论文地址:https://www.aclweb.org/anthology/D19-1632.pdf

最佳资源奖论文由Facebook、法国索邦大学和约翰斯·霍普金斯大学合作完成。

该文的获奖理由在于其提供的机器翻译数据集对低资源语言具有重要的意义,而详细、清晰的质量控制方法也值得其他类似的语料库收集工作借鉴。

EMNLP-IJCNLP 2019   Best Demo Paper

AllenNLP Interpret: A Framework for Explaining Predictions of NLP Models

作者:Eric Wallace, Jens Tuyls, Junlin Wang, Sanjay Subramanian, Matt Gardner, Sameer Singh

论文地址:https://www.aclweb.org/anthology/D19-3002.pdf

最佳Demo奖的获奖者来自艾伦人工智能研究所和加利福尼亚大学欧文分校。

这篇论文介绍了一个在AllenNLP基础上开发的开源工具包,它有助于解释基于神经网络的NLP系统。在NLP领域中一个重要的需求就是如何更好地解释“不透明”的神经网络,所以该系统很可能会对更多研究有所启发。

据悉,EMNLP2020将在多米尼加共和国举行,同学们明年约哈!
AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业论文EMNLP 2019
1
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
Philipp Koehn人物

计算机科学家,在南加州大学获得计算机科学博士学位,现为约翰·霍普金斯大学计算机科学系教授,主要研究兴趣是统计机器翻译。他与Franz Josef Och和Daniel Marcu合著的论文《Statistical phrase-based translation》吸引了机器翻译界的广泛关注,引用量超过1000。

刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

结构学习技术

结构化预测是监督学习,分类和回归的标准范式的一种推广。 所有这些可以被认为是找到一个能最大限度减少训练集损失的函数。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

暂无评论
暂无评论~