李泽南报道

清华成立自然语言处理与社会人文计算研究中心,孙茂松任主任

语言智能是AI皇冠上的明珠,如果语言智能实现突破,知识和推理就会得到发展,进而推动整个人工智能体系获得巨大进步。7月1日,清华大学在北京宣布成立自然语言处理与社会人文计算研究中心,人工智能研究院常务副院长孙茂松成为了这家重要机构的主管。

孙茂松被聘为研究中心主任。

自然语言处理研究中心的成立正值清华大学人工智能研究院建院一周年之际,它也是人工智能院旗下的第八个研究中心。该机构的成立旨在整合校内优势研究力量、推动人工智能的原始创新。

在此之前,清华大学陆续成立了人工智能研究院基础理论研究中心、智能信息获取研究中心等研究机构。

探究人类智能本质

「人类语言是人类智能本质的表现,自然语言理解被誉为人工智能皇冠上的明珠,」清华大学副校长,中国工程院院士尤政在成立仪式上表示。「这一概念在 AI 产生之前就已经是顶级大学研究的重要方向,也是计算机学科经典的研究方向。是当下 AI 研究的制高点。」

自然语言处理(NLP)是计算机迈入智能化的必经之路,研究 NLP 不仅能够促进技术发展,对于信息安全等领域也有着重要意义。作为国内顶级学府,清华大学是国内最早开展研究 AI自然语言处理的高校,早在 1978 年就在黄昌宁教授的领导下开办了 AI 和智能控制教研组。

清华大学自然语言处理研究方向开拓者黄昌宁教授(左)在成立仪式上。

在多年的发展中,清华大学一直瞄准国际前沿开展工作,经过不懈努力,已经发展成为国内外自然语言处理研究的一方重镇。

与其他大学的类似机构有所不同,清华大学成立的 NLP 研究中心致力于与社会科学及人文科学相结合,具有大跨度学科交叉的性质。

「从研究院的整体部署上,我们把自然语言处理作为人工智能基础研究的一部分,」清华大学人工智能研究院院长,中国科学院院士张钹说道。「自然语言处理应该与社会学、人文学深度融合。我们希望研究中心能够在领域交叉研究上形成特色,进而引领国内学界的发展。」

张钹院士表示,交叉领域研究并不是简单地在其他学科上使用 AI 或深度学习工具——重要的是以社会学、人文学等其他学科的方式思考 AI,寻找自然语言处理,以及人类智能的本质。

NLP 研究中心的成立不仅能够促进人工智能技术的发展,对于其他学科而言也具有重大意义。此前,清华大学已经开展了一些在交叉学科上的 AI 研究。「清华大学法学院正在发展有关计算法学、研究民间借贷、交通定则等方向的研究。」法学院院长申卫星教授表示。

中心成立后,清华大学希望以此对自然语言处理领域的研究提供持续稳定长期的支持,并在多个方向上实现从零到一的突破。

在成立仪式上,清华宣布研究中心聘请中国工程院院士,中国中文信息学会原理事长倪光南、加拿大皇家科学院院士李明、微软亚洲研究院副院长周明、英国皇家工程院院士郭毅可任中心学术顾问。孙茂松任中心主任,清华大学计算机科学与技术系,人工智能研究所所长刘洋任中心常务副主任。

开源前沿研究成果

在昨天研究中心成立的同时,清华大学还举行了自然语言处理前沿学术报告与开源成果发布会,中心研究团队发布了机器翻译深度学习中文诗歌生成系统以及自然语言预训练模型等最新研究成果。

THUMT 是清华大学 2017 年 6 月发布的深度学习机器翻译系统。该系统使用了数据驱动的机器翻译技术,具备良好的语言无关性,在具备训练数据的条件下可以迅速为新语种部署系统。

昨天,刘洋教授公布了在 TensorFlow 平台上开发的新版 THUMT 系统,其采用了主流的 Transformer 模型,集成了目前最新的神经机器翻译技术,具有训练速度快(支持多机多卡并行)、显存占用低(支持单精度浮点数计算)、翻译性能高(与国际机器翻译开源软件相比位居前列)、易于可视化分析(支持层级相关反馈算法)等优点。

此外,清华大学还开放了包含 70 万句对的句级对齐汉英平行语料库,以及 4 万句对的词级对齐汉英平行语料库

项目地址:thumt.thunlp.org

刘知远副教授在活动中发布了新工具 OpenCLaP(Open Chinese Language Pre-trained Model Zoo)。这是一个多领域中文预训练模型仓库。通过在多领域大规模中文文本的预训练,这些预训练模型可以在下游任务上进行微调以提高任务性能。本次开源成果公布了数个基于千万级文本的预训练模型,支持最大 512 长度的文本输入适配多种任务需求。

刘知远副教授介绍了清华大学最新的开源成果 OpenCLaP。

OpenCLaP 采用 BERT 作为通用框架,目前已经完整支持民事文书、刑事文书、百度百科等领域的预训练模型。刘知远表示,清华大学 NLP 组未来还将在 OpenCLaP 中持续加入更多更强的预训练模型,如增加更多训练语料、引入大规模知识、使用全词覆盖策略等。

  • OpenCLaP GitHub 网址:github.com/thunlp/OpenCLaP

  • 项目网址:zoo.thunlp.org

入门孙茂松清华大学自然语言处理研究中心
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面,智能多媒体,大数据与知识挖掘,人工智能,云和边缘计算,计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的研究,助力微软实现长远发展战略。通过与微软产品部门紧密合作,微软亚洲研究院将众多创新技术转移到了微软的核心产品中,如Office、Windows、Azure、Bing、Visual Studio、Xbox Kinect以及小冰、Cortana和Microsoft Translator等人工智能产品。

https://www.msra.cn/
清华大学 机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

刘知远人物

刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011 年获得清华大学博士学位,已在 ACL、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文 60 余篇,Google Scholar 统计引用超过 2100 次。承担多项国家自然科学基金。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、CCF-Intel 青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会委员、秘书,SCI 期刊 Frontiers of Computer Science 青年编委,ACL、COLING、IJCNLP 领域主席。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
孙茂松人物

孙茂松,教授,博士生导师,曾任清华大学计算机科学与技术系系主任,现任教育部在线教育研究中心副主任、清华大学计算机系党委书记、清华大学大规模在线开放教育研究中心主任。

推荐文章
暂无评论
暂无评论~