Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟报道

搜狗推出的全球首个手语AI合成主播「小聪」,有哪些技术难点?

近日,在「搜狐科技5G & AI峰会」上,搜狗CEO王小川宣布正式发布全球首个手语AI合成主播「小聪」。「小聪」是基于搜狗AI分身技术的新一代合成主播,如果得到普遍应用,将能够帮助听障人士克服语言沟通障碍,更好地融入社会,享受数字化生活。

根据世界卫生组织发布的最新数据,全世界有 4.66 亿人有听力障碍,在我国听障人士有 2700 万人。手语是听障人士的第一语言,相比于阅读字幕,听障人士更习惯于使用手语作为接受和表达信息的方式。

然而,以目前电视节目中的手语新闻播报为例, 许多听障人士表示不能完全理解手语新闻中的手语表达,他们认为新闻中的手语与他们日常使用的手语差距很大。很多听障人士因为沟通障碍而无法常态化、高质量地接收重要资讯信息。因此,通过技术创新实现听障人士真正可懂的手语播报,对于帮助听障人群克服语言沟通障碍,更好融入社会非常有价值。

「小聪」以打造听障人士真正可懂的通用手语播报为目标,立足于搜狗领先的数字人技术体系——搜狗分身,集成了超写实 3D 数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项领先 AI 技术,实现了超写实 3D 数字人自然可懂的手语主播能力,使机器可以基于输入口语文本生成逼真度高、手语表达准确的 3D 数字人视频内容,从而具备「超写实的逼真数字人效果」、「高可懂度的手语表达能力」、「高接受度的手语展现效果」三大特点。
搜狗数字人 “小聪” 技术原理

超写实的逼真数字人效果

自 2020 年 5 月发布全球首个 3D AI 合成主播「新小微」以来,搜狗 AI 团队在超写实 3D 数字人领域持续研发并取得了新的突破,本次发布的手语数字人使用了行业最领先的 3D 重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术,生产出了高度还原真人发肤、形象逼真、动作自然生动的数字人模型,数字人写实度的大幅突破显著提升了手语播报的真实感与亲切感,有效提升了播报的用户体验。
2020 年 5 月搜狗联合新华社推出的 3D AI 合成主播「新小微」(左)与此次发布的手语 AI 合成主播「小聪」(右)。

据研发团队介绍,为了让数字人的视觉效果更加真实,尽可能避免「恐怖谷效应」,新主播小聪的皮肤材质与真人几乎没有任何区别。近距离观看就会发现小聪的脸上有一些纹理和凹凸不平的瑕疵,与真人的皮肤相差无几。此外,不同于之前的数字人,搜狗新一代合成主播小聪的头发部分是采用 Groom 模式创建的,该方法能够让发丝的纹理更加真实。

只有当数字人与人类越来越像时,人机交互才能做到真正的自然交互,才能让人们与数字人具有情感连接。在这一点上,小聪位居行业前列。

高可懂度的手语表达能力

手语是属于听障人士的独立语言,与汉语、英语、法语、俄语等并列。不同于健听人使用的以表音为主的语言,手语是一种视觉空间语言,以表形表意为主,拥有自身独特的表达逻辑和特点。例如手语表形度高、词性结构不发达、语序语法结构独立等。

我国近年来一直在推动手语的普及和应用,并在 2019 年出版了《国家通用手语词典》。基于最新发布的国家通用手语语言体系,本次搜狗发布的手语数字人系统实现了健听人语言与手语语言的机器翻译能力,基于输入的健听人语言,该系统能够低延迟地生成高准确率的手语语言表征,通过搜狗分身的多模态生成技术,实时预测生成对应的超写实 3D 数字人驱动参数,进而快速生成数字人手语播报视频。

手语 AI 合成主播「小聪」的研发目标是要做真正让听障人士可懂的手语数字人。所以在该项目的开发过程中有一个顾问团,其中包括三类人,第一类是根据国家聋协标准进行推广的专业人士;第二类是手语学校的老师,他们是能够听懂声音,也能打好手语,并且能够做好手语教学的人。第三部分是手语的使用者,也就是听障人士。开发团队通过与这三类人持续沟通,以确保手语动作的标准和较高的手语可懂度(即听障人士能够看懂数字人手语表达的程度),并在每一步技术迭代中都能得到最真实的反馈。

在该项目进行的听障人士可懂度测评中,搜狗手语数字人的播报内容可懂度已经达到 85% 以上的实用水平,将能有力帮助听障人士克服语言障碍,建立与社会大家庭之间信息沟通的有效渠道。

高接受度的手语展现效果

 作为一种视觉语言,手语由手控信息(手形、手部位置等)和非手控信息(表情、口动、体态等)联动而成,其中手控信息是构成手语语形的基本单位,相当于汉语的「拼音」,不同手形的结合变换可涵盖除语气词及外来词外的大部分手语词汇。

而在非手控信息中,表情相当于汉语中的「语气」, 用来区分肯定、疑问、感叹等。表情对于手语的可懂度有较大影响。同时,口动的内容多为汉语词的读法及拟声词,在手语表达中常配合某些汉语词句使用,是汉语词是否能够被准确理解的关键,也是手语表达是否地道的重要表现。

据开发团队介绍,在手语 AI 合成主播「小聪」的开发过程中,手语构建方面主要有以下 3 个难点:

    1. 手语的语序和汉语并不完全一致。例如「开车不准喝酒」在手语中的表达是「开车,喝酒,不准」,「北京常常堵车」的手语表达是「北京、堵车、常常」。研发团队建立了一些相应的语言规则尝试进行了语序的转化,并通过翻译的语料库对算法进行训练。
    2. 在词汇方面,手语中没有虚词和量词。例如「我买两只铅笔、一本书」,手语表达是「我买铅笔、二、书、一」。此外,「大雪纷飞」,不会有一个词是「大」,而是在「雪」的基础上加大身体的摆动来体现程度副词。因此在词汇方面,研发团队建立了手语与汉语之间的映射词典,尝试解决手语和汉语词汇上的差异问题。
    3. 手语里特有的非手控的信息,包括表情、口动、身体的朝向等,是语音语言里没有的。研发团队希望通过建立一些表情库或者是存在表情标记的数据库驱动算法的设计,例如用同一个手势表达「我做得好不好」,如果没有表情,听障人士将不能够确定具体的意思。但如果有皱眉的表情,则是表达「疑问」的语气,询问对方做得好不好。如果想表达惊讶的语气,一个挑眉的动作则能够表达「感叹」的语气。再比如,「好不好」和「对不对」的手语手势是一样的,那么「好」和「对」就要通过口动来区分体现。

其中,非手控信息是该团队遇到的最大难题,目前正在尝试通过一些规则的方式方法来解决这个问题。

此次搜狗手语数字人完整实现了手控信息以及非手控信息的表达,首先通过机器翻译生成手语表征信息,覆盖了手部动作、面部表情、口动等维度,之后基于多模态端到端生成模型进行联合建模及预测,生成高准确率的动作、表情、唇动等序列,从而达到了自然地道、接受度高的手语表达效果。

未来应用

未来面向听障人士,搜狗手语数字人的应用场景将分为实时场景和非实时场景。

一方面,在重要的实时新闻发布会、大型晚会直播等实时场景里,由于实时无法配备字幕,听障人士目前没有渠道能够跟健听人一样实时了解信息。此外,在公共信息广播类的场景中,例如机场、车站等,很多航班延误信息、催促登机信息都是通过语音的方式发布出来的。因此他们通过屏幕上的视觉内容等来获取信息相对于健听人延迟了很多,甚至没能知道具体情况。因此实时场景将是未来手语数字人应用的一个方向。研发团队考虑了手语人机交互,现在的人机交互主要是语音的,该团队会把它推向多模态的,跟动作结合起来,并将手语放到人机交互的环境里,让听障人士与机器进行更自主的交流。

另一方面,非实时场景主要是与文化娱乐生活相关的场景,例如一些电视栏目、影视作品等是没有配字幕的。此外,手语是听障人士更愿意获取信息的方式,仅依赖字幕获取影片信息将让他们缺少一些体验感和参与感。因此文化娱乐节目等非实时场景也是未来比较重要的应用方向。

开发团队表示:「预计在今年下半年将会有搜狗手语数字人的具体产品落地。」我们期待未来手语数字人能够帮助听障人士更好地融入社会,享受丰富多彩的数字化生活。
产业搜狗
1
暂无评论
暂无评论~