国内NLP实验室哪家强?

AMiner基于论文数据整理了自然语言处理华人专家库,其中包括了来自NUS、HKUS、THU、PKU、FDU等知名高校以及百度、科大讯飞微软等公司的367位专家学者。

AMiner官方网站:https://www.aminer.cn/

下面基于自然语言处理华人库中的数据对其进行分析。

AMiner自然语言处理华人库专家全球分布

自然语言处理领域中华人专家在中国最多,美国次之。

AMiner自然语言处理华人库专家国内分布

 AMiner自然语言处理华人库专家地区统计

从地区来看,中国大陆是自然语言处理华人人才的最主要聚集地。尤其是北京、哈尔滨及东南沿海地区等具有自然语言处理学术基础的地区。美国东部和西部等其他地区排在其后。

AMiner自然语言处理华人库专家迁徙图

由上图可以看出,华人专家在中国流出量大于流入量,美国则正好相反,这也说明就自然领域而言,中国对人才的吸引力要小于美国。

AMiner自然语言处理华人库专家h-index统计

注:h-index指数

国际公认的能够比较准确地反映学者学术成就的指数,计算方法是该学者至多有h篇论文分别被引用了至少h次。

AMiner自然语言处理华人库中专家h-index指数的平均数为14,这一数值是远远低于自然语言处理全球top1000学者h-index指数平均数的。

而且,在华人库中,h-index指数<10的专家人数最多,占比60%;10-19次之,占比17%;>60的专家占比仅占9%。

这也说明,自然语言处理华人专家整体水平低于自然语言处理领域全球top1000的学者,尤其是在h-index指数>60的学者方面有所欠缺。

 AMiner自然语言处理华人库男女比

AMiner自然语言处理华人库367位专家中,男性专家占98%,女性专家仅占2%,二者比例约为49:1。

AMiner基于发表于国际期刊会议的学术论文,对自然语言处理领域内专家进行深入挖掘,并按照相关度和影响力等对专家进行排序和分类。

排序和分类规则主要参考专家的h-index、paper、citation、专家所获得的荣誉、任职机构排名、专家Activity、Sociability以及Diversity等,得到结果如下:

清华大学

孙茂松、朱小燕、马少平、李涓子等人

北京大学

王厚峰、李素建、穗志方、万小军等人

哈工大

赵铁军、刘挺等人

中国科学院

刘群、宗成庆、赵军、孙乐等人

苏州大学

张民、周国栋等人

复旦大学

黄萱菁等人

东北大学

朱靖波等人

以下是AMiner挖掘出国内自然语言处理重要实验室及其主要负责人简介。

中科院计算所自然语言处理研究组

自然语言处理研究组隶属于中国科学院计算技术研究所智能信息处理重点实验室。研究组教师有刘群、冯洋等人。

研究组主要从事自然语言处理机器翻译相关的研究工作,研究方向包括机器翻译、人机对话、多语言词法分析、句法分析和网络信息挖掘等。

研究组已完成和正在承担的国家自然科学基金、863计划、科技支撑计划、国际合作等课题40余项,在自然语言处理机器翻译领域取得了多项创新性研究成果。

研究组自2004年重点开展统计机器翻译方面的研究并取得重大突破,并于2015年起转向神经机器翻译并取得很大进展。

2018年7月,正式加入华为诺亚方舟实验室,任语音语义首席科学家,主导语音和自然语言处理领域的前沿研究和技术创新。

自然语言处理的顶级国际刊物CL、AI和顶级国际学术会议ACL、IJCAI、AAAI、EMNLP、COLING上发表高水平论文70余篇,取得发明专利10余项。

研究组已经成功将自主开发的统计机器翻译和神经机器翻译技术推广到汉语、维吾尔语、藏语、蒙古语、英语、韩语、泰语、日语、阿拉伯语等多种语言。

部分语种的翻译系统已经在相关领域得到了实际应用,获得用户的好评。

实验室在2017年发表论文见下表。

ME-MD:  An Effective Framework for Neural Machine Translation with Multiple Encoders  and Decoders

作者:Jinchao  Zhang、Qun Liu、Jie  Zhou

收录会议:IJCAI  2017

Deep  Neural Machine Translation With Linear Associative Unit

作者:Mingxuan  Wang、Zhengdong Lu、Jie  Zhou、Qun Liu

收录会议:ACL  2017

Incorporating  Word Reordering Knowledge into Attention-based Neural Machine Translation

作者:inchao  Zhang、Mingxuan Wang、Qun  Liu、Jie Zhou

收录会议:ACL  2017

Memory-Augmented  Neural Machine Translation

作者:Yang  Feng、Shiyue Zhang、Andi  Zhang、Dong Wang、Andrew  Abel

收录会议:EMNLP  2017

Further  Investigation into Reference Bias in Monolingual Evaluation of Machine  Translation

作者:Qingsong  Ma、Yvette Graham、Timothy  Baldwin、Qun Liu

收录会议:EMNLP  2017

Blend:  a Novel Combined MT Metric Based on Direct Assessment——CASICT-DCU submission  to WMT17 Metrics Task

作者:Qingsong  Ma、Yvette Graham、Shugen  Wang、Qun Liu

收录会议:WMT 2017

CASICT-DCU  Neural Machine Translation Systems for WMT17

作者:Jinchao  Zhang、Peerachet Porkaew、Jiawei  Hu、Qiuye Zhao、Qun  Liu

收录会议:WMT  2017

现任实验室主要负责人为刘群,中国科学院自然语言处理研究组组长,都柏林大学自然语言处理组组长、项目负责人。

曾负责863重点项目“机器翻译新方法的研究”和“面向跨语言搜索的机器翻译关键技术研究”等。

哈工大社会计算与信息检索研究中心

哈工大社会计算与信息检索研究中心(HIT-SCIR)成立于2000年9月,隶属于计算机科学与技术学院。

研究中心成员有主任刘挺教授,副主任秦兵教授,教师包括张宇、车万翔、陈毅恒、张伟男等。

研究方向包括语言分析、信息抽取、情感分析、问答系统、社会媒体处理和用户画像6个方面。

已完成或正在承担的国家973课题、国家自然科学基金重点项目、国家863重点项目、国际合作、企业合作等课题60余项。

在这些项目的支持下打造出“语言技术平台LTP”,提供给百度、腾讯、华为、金山等企业使用,获2010年钱伟长中文信息处理科学技术一等奖。

研究中心近年来发表论文100余篇,其中在ACL、SIGIR、IJCAI、EMNLP等顶级国际学术会议上发表20余篇论文,参加国内外技术评测。

并在国际CoNLL’2009七国语言句法语义分析评测总成绩第一名。

研究中心通过与企业合作,已将多项技术嵌入企业产品中,为社会服务。

双语例句检索等一批技术嵌入金山词霸产品中,并因此获得2012年黑龙江省技术发明二等奖。

哈工大社会计算与信息检索研究中心现任负责人刘挺,哈尔滨工业大学教授,国家“万人计划”科技创新领军人才。

国家“万人计划”科技创新领军人才。多次担任国家863重点项目总体组专家、基金委会评专家。

复旦自然语言处理研究组

复旦大学自然语言与信息检索实验室,致力于社会媒体海量多媒体信息处理的前沿技术研究。

主要研究方向包括:自然语言处理、非规范化文本分析、语义计算、信息抽取、倾向性分析、文本挖掘等方面。

实验室开发了NLP工具包FudanNLP,FudanNLP提供了一系列新技术,包括中文分词、词性标注、依赖解析、时间表达式识别和规范化等。

实验室先后承担和参与了国家科技重大专项、国家973计划、863计划、国家自然科学基金课题、上海市科技攻关计划等。

并与国内外多所重点大学、公司保持着良好的合作关系。

研究成果持续发表在国际权威期刊和一流国际会议(TPAMI、TKDE、ICML、ACL、AAAI、IJCAI、SIGIR、CIKM、EMNLP、COLING等)。

复旦大学自然语言与信息检索实验室现任负责人黄萱菁,复旦大学计算机科学技术学院教授、博士生导师。

曾任2014年CIKM会议竞赛主席,2015年WSDM会议组织者,2015年全国社会媒体处理大会程序委员会主席,2016年全国计算语言学会议程序委员会副主席,2017年自然语言处理与中文计算国际会议程序委员会主席。

清华大学自然语言处理与社会人文计算实验室

清华大学计算机系自然语言处理课题组在20世纪70年代末,就在黄昌宁教授的带领下从事这方面的研究工作,是国内开展相关研究最早、深具影响力的科研单位,同时也是中国中文信息学会计算语言学专业委员会的挂靠单位。

目前该课题组对以中文为核心的自然语言处理中的若干前沿课题,进行系统、深入的研究,研究领域的涵盖面正逐步从计算语言学的核心问题扩展到社会计算和人文计算。

该课题组多篇论文被ACL 2018、IJCAI-ECAI 2018、WWW 2018录用,内容涉及问答系统信息检索机器翻译、诗歌生成、查询推荐等多个领域。具体见下表:

Denoising  Distantly Supervised Open-Domain Question Answering

作者:林衍凯、计昊哲、刘知远、孙茂松

收录会议:ACL 2018

Incorporating  Chinese Characters of Words for Lexical Sememe Prediction

作者:金晖明*、朱昊*、刘知远、谢若冰、孙茂松、林芬、林乐宇(*同等贡献,本篇文章与腾讯微信合作)

收录会议:ACL 2018

Entity-Duet  Neural Ranking:Understanding the Role of Knowledge Graph Semantics in Neural  Information Retrieval

作者:刘正皓、熊辰炎、孙茂松、刘知远(本篇文章与CMU熊辰炎合作)

收录会议:ACL  2018

Towards  Robust Neural Machine Translation

作者:程勇、涂兆鹏、孟凡东、翟俊杰、刘洋(本篇文章与腾讯AI实验室合作)

收录会议:ACL  2018

Chinese  Poetry Generation with a Working Memory Model

作者:矣晓沅、孙茂松、李若愚、杨宗瀚

收录会议:IJCAI  2018

Query  Suggestion with Feedback Memory Network

作者:武彬、熊辰炎、孙茂松、刘知远(本篇文章与CMU熊辰炎合作)

收录会议:WWW  2018

孙茂松,清华大学计算机科学与技术系教授,2007-2010年任该系系主任。

国家重点基础研究发展计划(973计划)项目首席科学家,国家社会科学基金重大项目首席专家。多次担任相关领域国际会议和全国性学术会议大会主席或程序委员会主席。

北京大学语言计算与互联网挖掘研究组

语言计算与互联网挖掘研究室从属于北京大学计算机科学技术研究所,成立于2008年7月。

研究室以自然语言处理技术、数据挖掘技术与机器学习技术为基础,对互联网上多源异质的文本大数据进行智能分析与深度挖掘。

为互联网搜索、舆情与情报分析、写稿与对话机器人等系统提供关键技术支撑,并从事计算机科学与人文社会科学的交叉科学研究。

研究室当前研究内容包括:

(1)语义理解:研制全新的语义分析系统实现对人类语言(尤其是汉语)的深层语义理解;

(2)机器写作:综合利用自动文摘与自然语言生成等技术让机器写出高质量的各类稿件;

(3)情感计算:针对多语言互联网文本实现高精度情感、立场与幽默分析;

(4)其他:包括特定情境下的人机对话技术等。

北京大学语言计算与互联网挖掘研究组现任负责人为万小军,北京大学计算机科学技术研究所教授,博士生导师。

担任计算语言学顶级国际期刊Computational Linguistics编委,TACL常务评审委员(Standing Reviewing Committee)。

研制了自动文摘开源平台PKUSUMSUM,与今日头条合作推出AI写稿机器人小明(Xiaomingbot),与南方都市报合作推出写稿机器人小南等应用系统。

北京大学计算语言学教育部重点实验室

计算语言学教育部重点实验室依托北京大学建设。

实验室研究人员由北京大学信息科学技术学院计算语言学研究所、中文系、软件与微电子学院语言信息工程系、计算机技术研究所、心理系和外语学院的相关研究人员构成。

主要研究方向包括:中文计算的基础理论与模型;大规模多层次语言知识库构建的方法;国家语言资源整理与语音数据库建设;海量文本内容分析与动态监控;多语言信息处理和机器翻译

北京大学计算语言学教育部重点实验室现任负责人穗志方,北京大学信息科学技术学院计算语言学实验室主任,教授、博士生导师。

2011年度国家科技进步二等奖“综合型语言知识库”项目第二完成人。在计算语言学国际顶级会议ACL 2000、COLING2008、CONLL 2008、ACL 2009、EMNLP2009、AIRS 2008上发表多篇学术论文。

中科院模式识别国家重点实验室

中科院模式识别国家重点实验室自然语言处理主要从事自然语言处理基础、机器翻译信息抽取问答系统等相关研究工作,力图在自然语言处理的理论模型和应用系统开发方面做出创新成果。

近年来,研究组注重于自然语言处理基础理论和应用基础的相关研究,承担了一系列包括国家自然科学基金项目、973计划课题、863计划项目和支撑计划项目等在内的基础研究和应用基础研究类项目,以及一批企业应用合作项目。

宗成庆,模式识别国家重点实验室研究员、博士生导师。

目前担任亚洲自然语言处理学会(AFNLP)候任主席,2014年获“钱伟长中文信息处理科学技术奖”一等奖,2015年获国家科技进步奖二等奖,2017年获北京市优秀教师荣誉称号。

清华大学智能技术与系统国家重点实验室

智能技术与系统国家重点实验室依托在清华大学。

实验室学术委员会由17名国内外著名专家组成。实验室学术委员会名誉主任为中科院院士张钹教授,主任为应明生教授、副主任为邓志东教授。

清华大学智能技术与系统国家重点实验室现任负责人朱小燕,清华计算机系教授,博士生导师。

作为项目负责人先后承担国家863,973项目,自然科学基金项目、国际合作项目多项。

1997年获国家教委科技进步二等奖,2003年获北京市科技进步二等奖。获得国家发明专利3项。在各种国际刊物和会议上发表论文近100篇。

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业北京大学清华大学复旦大学哈工大SCIR中科院自然语言处理
4
相关数据
华为机构

华为成立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。华为的主要业务分布在无线、网络、软件、服务器、云计算、人工智能与大数据、安全、智能终端等领域,发布了5G端到端解决方案、智简网络、软件平台、面向行业的云解决方案、EI企业智能平台、新一代FusionServer V5服务器、HUAWEI Mate等系列智能手机、麒麟系列AI芯片等产品。目前华为拥有18万员工,36所联合创新中心,14所研究院/所/室,业务遍及170多个国家和地区。

http://www.huawei.com/cn
科大讯飞机构

科大讯飞股份有限公司(SZ.002230)成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。

http://www.iflytek.com/
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

李素建人物

北京大学计算语言学研究所副教授,研究领域:自然语言处理、自动文摘、篇章分析、文本生成、机器理解和信息提取。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

词法分析技术

词法分析是计算机科学中将字符序列转换为标记序列的过程。进行词法分析的程序或者函数叫作词法分析器,也叫扫描器。词法分析器一般以函数的形式存在,供语法分析器调用

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域,涉及计算机科学、心理学和认知科学(cognitive science)。在计算机领域,1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态,并且适应它们的行为,对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐文章
暂无评论
暂无评论~