姚登峰、郭晓斌、江铭虎作者

前路漫漫 未来可期——走出手语识别的“误区”

手语,对广大民众不陌生,时常看见生活周围的聋人飞快地打手势交流,聋人之间交流的语言就是手语。但更多的人知其然,不知其所以然。

200万年前人类祖先最早依靠一些简单的手势彼此沟通,在漫长的进化过程中,人类慢慢学会说话,取代了初始的手势。以致于在即将迈入人工智能的时代,很多人似乎忘记了人类先祖曾用的手势和现代社会依然存在手语族。

在中国,手语(即大众所说的“自然手语”,以下统称为“中国手语”)一般是指聋人使用的“原生态”语言。聋人由于听力丧失,为了便于交流,便产生了一种用手部动作、肢体动作、头部动作、面部情感等相互补充的空间视觉语言,从语言学的角度来说他们具有完整语言体系,我们称之为中国手语。而“手势汉语”、“文法手语”等经常出现在人们视野内的“手语”,只是符合汉语语法和语序的手势序列,从语言属性来说他们还没脱离汉语的范畴,而手语则是一门独立的自然语言,因此它们并不属于中国手语,更不是聋人平时使用的手语。

由此产生的“手语识别”是一个多学科交叉的研究课题,既要懂语言学,还要懂得计算机科学、认知神经科学、心理学等等。那么何谓“手语识别”呢?即通过机器能识别,准确地翻译出自然手语这门空间语言所表达的完整意思。

我国手语识别成果喜人

如果要研究手语识别,首先要了解手语,认识手语,了解聋人的需求。随着社会的文明进步,信息产业的飞速发展,越来越多的科研人员和爱心人士开始关注并研究手语识别。近几年国家自然科学基金委先后批准十几个手语识别项目立项,涉及单位包括中科院计算所、哈尔滨工业大学、北京工业大学、大连理工大学等,这些项目都取得了不同程度的进展和可喜的成果。还有些民间机构,包括一些企业、兴趣爱好者,也纷纷开始关注手语识别,希冀借助现代科技解决手语与文字、手语与语音之间的翻译,实现聋人与健听人之间的无障碍沟通。最具代表性的有中科院计算所的手语识别系统,北京工大的2008奥运手语播报系统等。

中科院所研发的手语识别系统历时八年,攻克了五大难关,主要包括数据采集和处理、手语大词汇量识别、非特定人手语识别、手语多模态表达以及手语运动数据重定向,在10多位聋校老师和众多聋校学生的帮助下,手语识别与合成课题组已建立了中国最大的手语词汇库,共有5500个词,并采用手语词根建模的识别方式来解决大词汇量的识别问题。该项目始终以聋人需求为出发点和落脚点,研究人员作为“手语识别”的先行者,对手语的信息化技术做了很多有益的探索,为改善我国的无障碍环境做出了贡献。

最近北航两位女生研发的手语翻译器炒得很火,这款产品在前不久百度与联合国开发计划署共同主办的“极·致未来”责任创新挑战赛上,获得了一等奖和最佳人气奖,被誉为最有“包容性”的项目。为维护手语的语言尊严,她们本着人文的精神,想利用科技去帮助更多的聋人实现无障碍沟通。正是这样源源不断愿意为聋人做贡献的爱心,才让“手语”这门特殊的语言越来越多的出现在大众的视野,让人们关注到身边还有庞大的聋人群体,从而关注手语识别、手语机器翻译等科学技术。

手语识别发展“误解”多多

这么多重大的发明接踵而来。那么,手语翻译重大难题已解决了吗?不,并没有。我们在赞赏这些科研机构、学者对“手语识别”孜孜不倦探索研究的同时,要对一些夸大其词的舆论有正确的鉴别认识,因为过度的“赞美”会阻滞手语信息化事业发展;而某些概念、逻辑不准确、不专业、不严谨的导向,会误导手语学术领域对我国“手语识别”研究的认同度——表面上是夸大成果,实则是降低整体研究专业水平,损害研究部门形象。作为一名从事多年手语计算的计算语言学工作者,我想就目前一些“手语识别”常见的认知误区分享给大家。

第一、现在有报道称“可以实现手语信息与自然语言的实时双向翻译”。这句话表达的意思,把手语视作一种信息的地位跟自然语言实现转化。自然语言中包含着多种模态,当然也包括手语。手语本身就是一门独立的自然语言,在语言学研究领域已经达成共识。它跟汉语、英语、日语、俄语等自然语言一样,具有同等地位。所有关于手语的研究,必须建立在此基础上。因此,这句话是不准确的。

第二、有关手语识别的报道声称,只需要1000个手势就可以做出手语翻译系统。如果按照计算语言学专业术语严谨定义,1000个手势就可以做出的手语翻译系统,充其量只能算一个小容量的“手势汉语翻译小字典”。

  • 有声音说“可以让所有没有任何手语基础的人能够通过自然语言与“聋哑”人士无障碍交流。”其愿望良好,但存在诸多谬误。首先概念模糊,有逻辑错误。对中国手语识别的研究仅仅还在起步阶段,还有很多尚未解决的科研难题。其次,报道的成果只是手势汉语的单词翻译。没有手语基础的人如何能够通过自然语言与“聋哑”人士无障碍交流呢?就连新闻联播里的手语翻译那么标准,能看懂的聋人不多,因为播报的是手势汉语翻译。
  • 有报道称:“为保护失语者的尊严……”“帮助聋哑人实现无障碍沟通……”等,这两类报道都欠妥。前者把使用中国手语的人称为“失语者”,无视中国手语与其他自然语言同等的语言地位,保护的是“人”本身的尊严,而不是手语作为一门语言应有的尊严,建议改为:“为维护手语的语言尊严……”;后者则是“聋哑人”以称“聋人”,观念陈旧不合文化进步,这涉及聋人是一个以手语为核心文化的群体,而聋哑人中“哑”字面上多有歧视之嫌,现在无论国内还是国际,观念新的聋文化活动中多使用“聋人”而少用甚至不用“聋哑人”。这些也是媒体报道中应该应有的与聋人相关基本常识。

手机识别科普迫在眉睫

据2010年末人口调查报告统计,我国有聋人2075万,每年新增2万听损儿童,比人口最多的少数民族——壮族还多440万人,占全国总人口的16.79‰,是我国人口最多的“少数民族”。随着康复技术的不断发展,国家对听障儿童给予诸多政策扶助和关爱,不少听障儿童得到了较好干预,他们经过语言康复回归到主流社会,第一母语不再是中国手语。

除去这些康复了的听障儿童,还有大批聋人群,他们中间能够上大学的毕竟是少数。只有接受过教育的聋人才能理解手势汉语。而更多的聋人群接受教育程度偏低,尤其是贫困地区仍然有很多聋人没有接受过教育(笔者对此没有做深入的调查研究,只是根据官方的报道和生活周围的人群估算),有的聋人认不到几个字,甚至无法写出一句完整的汉语句子,根本不懂手势汉语表达的意思,当然无法理解汉语语法和以汉语语法为基础的手势汉语。绝大多数聋人使用的是中国手语,也只能看懂中国手语。

就了解,目前“手语识别”的研究水平只能翻译对应的手语单词,并不具备翻译整段句子的功能,它们充其量可以作为一本“手语单词识别字典”。如果非要说它是具备了一定手语成句翻译功能的“手语识别系统”,那也只是“手势汉语翻译系统”。此系统适用者并不是以中国手语为第一语言的广大聋人群,而是专门供健听手语爱好者、聋人群中接受过一定教育的少部分聋人使用。

手语作为一门独立的自然语言,拥有自己独特的语法。最常见的例子就是在手语中的否定后置。例如,我们用汉语说:“禁止喧哗”,翻译成中国手语就成了“喧哗““禁止”,这两个词的前后位置有变化,否定被放到了最后,因为手语是以视觉效果为基础的空间语言,否定后置会使句意表达更有力。就像我们把一段汉语句子放到谷歌翻译成英文句子,可以保证翻译后的英文句子100%还原汉语句子的句意、且没有语法错误吗?同样的道理,如果不能搞清楚手语中的语法关系,翻译整体句意也很可能会是不伦不类,最多只能实现单词、短语的选择性翻译,这就是笔者所说目前相关手语识别的研究,只能定义“手语字典”。手语识别,即整句翻译功能还有无数个艰难险阻的科研难题需要攻克。

手势汉语与传统语言有些类似,而手语计算与传统语言计算有本质差异。传统语言的计算理论是建立在单信道基础上的,而手语计算是基于多信道的。传统语言计算的根本任务是“消歧”,而手语计算是以空间计算为主,核心任务是将单信道表征和多信道表征相互转换。因为手语的手部形状、手部位置、手掌方向、头部动作、眼睛凝视方向、面部表情、肩部动作和躯干姿势等这些信道都包含语言学意义上必不可少的信息。这些信道信息互为依存,相互联系,缺一不可。手语识别需要将空间建模、空间隐喻、空间语义等概念贯穿在手语计算的词法、句法、语义和语用等各个阶段。

那么对于手语研究我们应该抱怎样的态度呢?也许美国学者Huenerfauth Matt的成长故事可以给我们启发。他是国际上知名的手语计算专家,宾夕法尼亚大学计算机系计算语言学专业博士毕业,宾夕法尼亚大学NLP(自然语言处理的缩写)研究组是全美最好的团队之一。受到过良好的科学训练。他就读大学时就已经掌握了美国手语,并考取了手语翻译员证书。他从2006年博士毕业到现在,几十年如一日一直做手语计算的研究,没有换过方向。他的成果丰硕,从2002年到现在共发表了75篇论文。从Matt故事可以看到,要成为这方面的专家,需要坐冷板凳的,耐得住寂寞。

从中科院研发手语识别系统的艰难历程可以看到,要想研究出一个实用的手语识别或翻译系统,并不是简简单单录入手语词汇,即便获得几个奖项也只能算在漫长的科研路上取得了一个个里程碑的成果。如果要研究出聋人需要的实用的手语翻译系统,就必须脚踏实地,扎扎实实做科学研究。首先要学习手语语言学,熟悉聋人的语言——中国手语。还要了解这个领域的科研动态,借鉴别人的成功经验去改进、提高、创新和发展。如果在不了解手语、不了解聋人实际需求的情况下做劳而无功的研究,其“成果”对聋人来说必然是没有实际效用的,不仅浪费自己的宝贵时间,将“热热闹闹”地让聋人大失所望。

写到最后,也许会人问:按照此文观点,手语识别,即手语的无障碍翻译岂不是遥遥无期吗?怎么样才能做出像谷歌、有道翻译系统一样的手语翻译系统呢?笔者的答案是:当有一天手语词典作为一本工具书达到了《牛津字典》这样的程度,当手语语法有了大家公认的成文成果,当越来越多的聋人接受到高等教育,当我们的科技飞速发展到支持这一切研究成果成型,当我们拥有大规模手语语料自动标注技术并能够完整标注所有信道和所有空间细节时,当我们能够为机器提供少则几百万句对齐的双语语料库进行学习。这个时候,才有机会出现真正的、像谷歌、有道一样成熟的手语翻译软件。路漫漫其修远兮,期待有更多的科研工作者持之以恒上下求索,相信这一天一定会到来!

作者简介:姚登峰,北京市信息服务工程重点实验室计算语言学专业副教授、硕士生导师,先后毕业于北京大学和清华大学获得硕士和博士学位,具有12年的手语使用经验和研究历史。

郭晓斌,山西省晋中市特殊教育学校聋人教师。

江铭虎,通讯作者,清华大学计算语言学实验室教授、博士生导师。

产业自然语言处理认知神经科学手语识别
1
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
认知神经科学技术

认知神经科学(英语:Cognitive neuroscience)是一门科学学科,旨在探讨认知历程的生物学基础。主要的目标为阐明心理历程的神经机制,也就是大脑的运作如何造就心理或认知功能。认知神经科学为心理学和神经科学的分支,并且横跨众多领域,例如生理心理学、神经科学、认知心理学和神经心理学。认知神经科学以认知科学的理论以及神经心理学、神经科学及计算机模型的实验证据为基础。

暂无评论
暂无评论~