Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

邸利会作者

机器翻译进化到哪一步了?

编者按:如果你是英语四级或六级的水平,同样翻译几句话,机器翻译可能比人完成得还要好。机器翻译作为人工智能研究的重要课题之一,在近些年得到了快速发展。机器翻译目前可以达到什么样的水平?发展过程中会遇到哪些挑战?未来又将如何发展?请看周明博士给出的答案。本文授权转载自微信公众号“赛先生”。

微软亚洲研究院副院长周明

想一下未来50年或者100年,您的孙子或者孙子的孙子,是否还会花费人生中十几年甚至几十年的时间学习一门外语,甚至还学不好?

当然,雇翻译也可以,可往往花费不菲。有这样一批计算科学家、工程师,他们相信可以有别样法门,那就是用机器来做翻译。公平地说,他们已经部分取得了成功。

微软亚洲研究院副院长周明机器翻译已经有30多年,见证了这一领域的面貌变迁。大概去年的这个时候,微软亚洲研究院和微软雷德蒙研究院合作在通用新闻报道测试集WMT2017的中英翻译测试集上,达到了可与人工翻译媲美的水平

机器翻译中,测试集就像是给跳高运动员设置的横杆,各家机器翻译的结果和这个标准比较,越接近就意味着越好。

事实上,机器翻译一直是人工智能领域的一大课题。1954年美国乔治亚大学和IBM公司合作的俄英机器翻译,被认为是世界上第一个机器翻译实验。不过,中国早在1956年就把机器翻译列入了全国科学工作发展规划。1957年,中科院语言研究所和计算技术研究所开展了俄汉机器翻译实验。

1989年,周明在哈尔滨工业大学计算机系李生老师指导下读研时,研发的CEMT中英翻译系统通过了当时的航天部的技术鉴定。当时,国内有几家在做英中机器翻译的研究,但是做中英机器翻译的非常少。CEMT应该是中国最早的中英机器翻译系统,而国外中英机器翻译研究也寥若晨星。

那时的中国正逐步告别封闭,走在改革开放的道路上,人们迫切希望用英中翻译把浩如烟海的英文文献翻译成中文。那个时候,周明已经意识到,有一天将中文翻译成英文也同样重要,于是他选择了从当时冷门的中英机器翻译开始研究。

彼时,没有互联网,也没有什么参考书,周明自己设计了这套中英翻译系统。这也是那个闭塞年代的无奈——几乎没有任何可供参考的文献,能看到的就是通过北京图书馆和有关部委情报所得到的一些胶片,大概相当于国外六七十年代水平的文献。

这套可说是世界上第一个公开发表的完整的中英翻译系统,背后依据的是一套完整的规则体系(比如中文句法分析规则、中文句法转换成英文句法的转换规则、英文形态生成规则等等)。

这样的一套系统,可以把当时很流行的一本英语学习读物《英语900句》很好的翻译了出来。之后,这套系统于1990年还获得了原航天部科技进步二等奖。

1991年博士毕业后,周明进入了清华大学做博士后。在张钹、黄昌宁两位教授指导下,从事中文句法分析研究。试图通过中文句法分析的提高,逐步改进中英翻译。

90年代的中国,与世界的交互逐渐增多。黄昌宁老师把他从国外参加会议带回的会议文献整整齐齐地放在一个书柜里,可见有多爱惜。很多外校的老师和同学到清华来都要借阅这些文献。

也正是从黄昌宁老师那里,周明得知国际学术界已经开始基于统计模型来构建机器翻译系统。之后,周明就做了一个基于统计的中文句法分析器。

除了中英翻译系统,周明也做过中日翻译系统。那是他1996至1999年在日本高电社访问的时候,当时担任中文翻译室室主任的他领导开发了名为“J北京”的中日翻译系统,其中J的意思是日语。

这也是一个基于规则的翻译系统,利用中日两种语言的对比分析,对句式进行变化,并生成日语的形态。基于同样原理,后来也实现了日中翻译。J-北京是日本最为有名的中日翻译软件,在市场上获得了成功,甚至在今天还有出售。

1999年从日本回国后不久,周明加入到刚成立不久的微软亚洲研究院,在黄昌宁教授领导的自然语言计算组担任研究员。周明一开始做了中日文输入法、微软对联、基于实例的机器翻译、英语写作辅助系统等等。到2005年,在时任副院长洪小文的支持下,他们组开始做统计机器翻译系统。

2012年,在天津举办的“21世纪的计算”研讨会中,周明团队与语音组的同事合作,将微软全球首席研究官里克·雷斯特博士的演讲由英文实时翻译成中文。这个工作包括了三个部分,首先将里克的演讲通过语音识别得到文本,然后再通过统计机器翻译将英文文本翻译成中文,最后通过语音合成模拟里克的发音特点读出中文的翻译。

2015年,人工智能进入到神经网络兴起的时代。先是在图像领域,继之是语音识别,研究人员应用深度神经网络都取得了不俗的效果。也就是在那个时候,周明他们也开始用深度学习来做机器翻译

一开始神经网络机器翻译的效果很差,但随着各个公司、学校不断完善技术,如今,机器翻译的水平已经在单句级别,如果有充足语料训练的情况下,可达到和人类平均水平几乎相仿的水平。

也就是说,如果你是英语四级或六级的水平,同样翻几句话,现在的机器翻译有可能比人要翻的好。

不过,如今的机器翻译需要提高的地方也不少。机器翻译进化到怎样的程度了,要面临的挑战还有哪些,我们请周明博士一一道来。

《赛先生》:机器翻译好像和人工智能的发展步调挺一致的?

周明其实人工智能刚开始兴起的时候,还没去做机器人、自动驾驶,先做的是机器翻译实验,全世界都是这样。

先是1957年的时候,美国做了一个简单的俄英英俄机器翻译,因为那时候美国最担心苏联先登月,担心被超越。这个俄英翻译是基于六条句法转换规则,大概有200个单词,做完了在小范围内用算成功。当时就引发了一个热潮,大家说人工智能将来肯定超越人类、翻译也会超越人类,机器翻译的投资大幅度增加。

结果到了1965年前后,大家发现机器翻译水平不行,然后美国语言咨询委员会又出了一个报告说,机器翻译还早着呢,尤其是全自动的,还是先去做半自动、人机交互式的翻译吧;要先去研究语言学理论,再回过头去研究自动翻译。这个咨询报告一出来,很多对机器翻译的投资又下马了。

所以那时候就有了机器翻译时代的冬天,其实相应的来讲,就是人工智能的冬天。机器翻译是一个开先河的、代表人工智能的研究,当时人工智能很多是跟机器翻译有关的事情。

所以,机器翻译一开始是在前头唱主角,开先河,后面像图像处理、语音都逐渐做起来了。机器翻译界的人后来从他们那里也借鉴了一些方法,其中最有名的借鉴就是统计机器翻译,是从语音识别那里借鉴来的。

现在的深度学习的应用是先从计算机视觉开始,然后语音识别领域开始用,然后再到自然语言处理

《赛先生》:大家一直诟病深度学习的可解释性,它像一个黑盒子一样,无法对评测结果做出解释?

周明神经机器翻译这块可解释性还没有做的那么好。目前有一些模型试图来解决这件事,希望一定的程度上看出哪个词的表示、全句的表示的问题导致译文不对。或者解码时哪些参数不是那么优化。

那么,神经网络机器翻译中的可解释,是不是非要去做?这个问题事实上是有争议的。有的人就说,根本没必要去做,有的人说需要去做。

实际上,从结果看,通过大规模的评测集合可以对系统做优化,整体提升编码和解码的能力。

《赛先生》:怎样去判断翻译的质量,感觉是蛮主观的一件事?

周明我们有两个方案。一是做自动评测。我们有一个提前做好的标准的测试集,比如1万个句子是人翻译的结果。然后把机器翻译的结果跟人翻译的结果进行比对,相似度越高的,翻译的就越好。这是一种自动评测的方法。

它的好处是什么呢?每次做完翻译实验的时候,改了一些参数,马上就可以知道翻译的水平是高了还是低了。它的不好的地方就是有很多翻译可能跟标准答案不一样,但也可能是好的翻译,可能就反映不出来。但是,多数情况下,还是可以反映系统性能变化的趋势的。

第二个方案是对我们抽样出的句子,人工看一下翻的好坏。这是盲测,不告诉评测的人,这句话是人翻译的还是机器翻译的。人给一个句子打分,最后根据人的打分,对一个系统的结果做一个综合评分。人的打分有几个依据,比如翻译的准确度、译文的流畅度等。

《赛先生》:你们还用到一些其他的方法,如新的联合训练和对偶学习以便充分利用单语语料,一致性规范和推敲网络改进解码能力。是如何想到这些方法的,是灵感么?

周明首先是跨组合作的结晶。机器学习组的同事基于多年的研究提出的对偶学习和推敲网络,加上自然语言组的同事提出的联合训练和一致性规范解码,恰好优势互补。

我们有时候很长时间,翻译水准上不去,有些想法是不断琢磨硬憋出来的。比如把那个源语言的句子编码好好改改,一看有点改进,然后再多想一点,或者把目标语言的解码的地方再改一改。或者训练数据不够,能不能想办法用单语数据来补充。

你能够基本上列一个你要做实验的列表,一开始时也不知道哪一种方法最好,就一个个去试,试完了觉得最好的,说不定有些道理,那就拔高,看能不能形成一套整体思路,甚至形成一套理论出来。如果真有道理的话,就继续推进。通过多年时间,也积累了很多技巧和经验。

《赛先生》:所以结果复现不了,这个是正常的吧?

周明这也是正常的,但是差距太多说明是有问题的。如果就是差一两个点,就说明有些小小的技巧或许作者论文里没写。

《赛先生》:机器翻译发展到现在,还有哪些挑战性的问题?

周明目前的机器翻译,首先我要强调是,第一它是单句对照级的翻译,就是一句原文,一句译文。我们翻这一句的时候不考虑上下文,前面说多少都不考虑,就把当前这句话忠实的翻译出来。但是人翻译的时候是要考虑整个上下文的。

机器在对这种篇章建模,然后进行编码解码翻译的时候,目前并没有很好的手段,就连怎么评测,训练集在哪里都不清楚。所以目前,篇章级的翻译不行。

同样,人们在口语翻译的时候也要考虑前文的,所以机器口语翻译的时候也不行。比如一个句子出现了指代、省略,在翻译的时候要适当地补充,人比较容易理解,但机器就做得不好。这是第二件事情。

此外,机器对于方言处理的效果也不好。比如中文里有四川话、上海话等。因为语音识别在处理方言的时候,处理的不好,所以也影响到后面的机器翻译

就算不是方言,不同的人要用不同的词来表达同一个意思,或者句型也有可能发生变化,那机器翻译,如果训练不足的话,没有捕捉到这种现象,翻译的时候也会出现偏差。

最后,对新词的捕捉,目前还是比较困难。提前构建一个完善的新词词典加进系统中,也会带来分词和翻译的误差。现场捕捉新词并且猜测其译文总是非常难的。相比人类可以很容易理解新词,机器还差的很远。

《赛先生》:所以,机器翻译未来要达到目标是什么?

周明首先是不同语言之间的自如的口语翻译。还有实现对文体的全文级的翻译。然后实现个性化翻译。

《赛先生》:你们需要跟语音识别的研究者进行哪方面的合作?

周明我们有两种合作,紧密合作和松散合作。松散合作就是语音识别后的结果给机器翻译,需要对语音识别的结果做正则化,比如把啰嗦的地方去掉、把没有标点的地方补上标点,处理重叠词、缺省词、颠三倒四等。然后我们再把它翻成目标语。语音合成的人拿到我们的译文,通过语音合成系统输出语音。语音识别、翻译、合成三件事串接进行。没有进行整体优化。

紧密合作就是三家一起紧密合作,互相借鉴,甚至进行端对端的训练,提升整体的结果。

《赛先生》:在什么情况下需要紧密合作?

周明首先研究资源上很多是可以共享的,比如做语音用的词表、方言词典,做语言的也可以用。方法上有很多也是可以借鉴的,比如现在传统做法是语音识别了形成文字,文字再翻译,那能不能不形成文字,直接从语音翻译?这样可以免掉中间一些环节的错误蔓延。

比如同声翻译的人听英文,他识别的结果是中文。那么,机器能不能模拟这个过程?这就是我们所说的一种紧密结合——也许有一天就是语音直接到语音,中文的语音进去,英文的语音出来,中间也不一定非要经过一个文字的阶段。

《赛先生》:是否可能借鉴人脑的一些机理?

周明其实神经网络机器翻译有点像模拟人,它包括了编码、解码。人听了一句话在脑海里形成了一个印象,存在人脑的某一部位,无非就是时间、地点、人物、主题等,当然怎么存的咱不知道了。但是人要表达成另外一种语言,是调动了另一个机制,把存的事实表述出来,这个在机器翻译里就是解码。

所以,我们通过编码和解码的过程试图模拟人脑翻译的思维过程。当然,我的理解是,机器是不是真的是这样运作的,我们并不太清楚,我们现在只是体现了一定程度上的模拟。

《赛先生》:现在基于神经网络机器翻译顺延下去就会达到一个很高的水准呢,还是说必须要经历方法上大的变化才有可能?

周明我觉得神经机器翻译的红利两三年内还可以用,包括对一些模型的调整,编码、解码有些地方还可以考虑新的技术方案。但是未来是不是说永远就是神经网络来彻底解决翻译的过程?也许中间会出现另外一种新思潮,这个目前也不知道,所以我们是保持开放的。这正如我们当时做统计的时候觉得也很舒服,只要有双语料就做统计翻译了,后来神经机器翻译一下子就把统计机器翻译赢了。

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

理论机器翻译神经网络神经机器翻译统计机器翻译
3
相关数据
来也科技机构

来也科技是中国乃至全球的智能自动化领军品牌,为客户提供变革性的智能自动化解决方案,提升组织生产力和办公效率,释放员工潜力,助力政企实现智能时代的人机协同。 来也科技的产品是一套智能自动化平台,包含机器人流程自动化(RPA)、智能文档处理(IDP)、对话式AI(Conversational AI)等。基于这一平台,能够根据客户需要,构造各种不同类型的数字化劳动力,实现业务流程的自动化,全面提升业务效率。

www.laiye.com/
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
周明人物

周明博士,微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事、哈尔滨工业大学、天津大学、南开大学、山东大学等多所学校博士导师。 周明博士1985年毕业于重庆大学,1991年获哈尔滨工业大学博士学位。1991-1993年清华大学博士后,随后留校任副教授。1996-1999访问日本高电社公司领导中日机器翻译研究。他是中国第一个中英翻译系统CEMT-I(哈工大1989年)、日本最有名的中日机器翻译产品J-北京(日本高电社1998年)的研制者。 1999年,周明博士加入微软亚洲研究院,不久开始负责自然语言研究组。他带领团队进行了微软输入法、英库词典(必应词典)、中英翻译、微软中国文化系列(微软对联、微软字谜、微软绝句)等重要产品和项目的研发,并对微软Office、必应搜索、Windows等产品中的自然语言技术做出了重要贡献。近年来,周明博士领导研究团队与微软产品组合作开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。 周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。他多年来通过微软与中国和亚太地区的高校合作计划,包括微软-高校联合实验室、微软实习生计划、微软-高校联合培养博士生计划、青年教师铸星培养计划,与高校和学术组织联合举办暑期学校和学术会议等多种形式,对推动自然语言处理在中国和亚太的卓越发展做出了杰出贡献。

洪小文人物

微软公司资深副总裁,微软亚洲研究院院长。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

统计机器翻译技术

随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT)

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~