自然语言处理专家刘群教授加入华为诺亚,任语音语义首席科学家

2018 年 7 月,爱尔兰都柏林城市大学教授、自然语言处理机器翻译领域专家刘群博士,正式加入华为诺亚方舟实验室,任语音语义首席科学家,主导语音和自然语言处理领域的前沿研究和技术创新。

刘群 1989 年毕业于中国科学技术大学计算机系,1992 年于中国科学院计算技术研究所获得硕士学位,2004 年于北京大学获得博士学位。2012 年 7 月之前,他是中国科学院计算技术研究所的研究员和自然语言处理研究组负责人。2012 年 7 至 2018 年 6 月,刘群任都柏林城市大学教授、爱尔兰 ADAPT 研究中心(前身 CNGL 研究中心)自然语言处理主题负责人。刘群博士是自然语言处理机器翻译领域的国际著名专家,他的研究方向包括多语言信息处理、机器翻译模型、方法与评价等。他最初领导研制的 ICTCLAS 开源系统是应用最广泛的中文词语切分和词性标注工具,该项成果获得中国中文信息学会钱伟长中文信息科学技术奖一等奖。他领导的研究组在基于句法的机器翻译领域开展了长期的研究工作,其中代表性成果包括树到串模型、最大熵转录语法模型、基于森林的机器翻译方法等。刘群教授在自然语言处理顶级会议和期刊上发表论文 60 余篇,迄今为止被引用 6900 余次(GoogleScholar),相关成果获得了北京市科学技术二等奖和国家科技进步二等奖,并授权给很多企业推广应用。他组织承担和重点参与了国家自然科学基金、八六三计划、爱尔兰科学基金会、欧盟第七框架和 H2020 框架等众多大型科学研究项目。刘群教授已培养硕士博士研究生 40 余人,很多学生已成为一些大学自然语言处理机器翻译领域的活跃研究人员和一些大型互联网企业的机器翻译团队的负责人。

语音和自然语言处理是华为诺亚方舟实验室的重要研究领域之一,目前主要研究方向包括:语音识别和合成、机器翻译、对话和问答系统等。过去几年中,我们致力于打造基于深度学习的语音对话系统和机器翻译系统,并在华为智能手机等多个产品中实现了技术落地,在推动业界技术进步的同时,帮助华为的产品和服务得到显著提升。刘群教授的研究方向和技术理念与诺亚非常契合,他的加入无疑会进一步提升诺亚在自然语言处理领域的研究实力和创新能力。同时,自然语言处理是人工智能中最为困难的问题之一。随着人类进入智能化时代,智能设备和数据量都空前增长,通过语音和语言进行人机交互需求也在急速增长,充满了机会和挑战。相信在刘群教授的带领下,诺亚能够在语音和自然语言处理领域做出更有影响力的前沿研究和技术创新,用人工智能技术为华为公司以及社会创造更大的价值。

诺亚方舟实验室是华为的人工智能(AI)能力研究中心,聚焦智能基础算法的研究,打造数据高效和能耗高效的 AI 引擎。诺亚的研究领域主要集中在计算视觉、语音和自然语言处理推荐系统和搜索引擎、决策推理、AI 基础理论五大方向。实验室在香港、深圳、北京、上海、西安、伦敦、巴黎、多伦多、蒙特利尔、埃德蒙顿均设有研发分部。

产业华为诺亚方舟实验室
相关数据
人机交互技术
Human-computer interaction

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

自然语言处理技术
Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

机器翻译技术
Machine translation

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

问答系统技术
Question Answering

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

推荐系统技术
Recommender system

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

词性标注技术
part of speech (tagging)

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

语音识别技术
Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

推荐文章