Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蛋酱作者

中国队夺金幕后的「AI手语翻译官」:初次上岗,手语可懂度超90%

有了腾讯 3D 手语数智人主播「聆语」的精彩解说,即使是身处「无声世界」的群体也能实时感受冰雪赛事的每一份激情。

「中国首金!」

「你永远可以相信中国短道速滑!」

2 月 5 日晚上的首都体育馆,在短道速滑混合团体 2000 米接力决赛中,中国队击败对手,夺得中国首金。

和万千观众共同见证这一重要时刻的,还有腾讯 3D 手语数智人主播「聆语」,并用手语传递了这份喜悦:「最后一个弯道!武大靖率先冲出弯道,通过终点!」


在央视频多场赛事中,腾讯 3D 手语数智人「聆语」作为「AI 手语翻译官」,提供了手语解说服务,让处于无声世界中的特殊人群也能「听」到中国举办冰雪赛事的盛况,进一步提升了听障人士的观看体验。

「聆语」解说短道速滑男子 1000 米决赛,任子威夺金。

自由式滑雪女子大跳台决赛,中国选手谷爱凌夺得金牌。

我们为什么需要 AI 手语数智人主播?

在很多体育赛事中,敏锐、专业、生动、准确的赛事解说可以称得上是观赛过程的「灵魂」所在。但是对于听障人士来说,如果没有实时的手语解说服务,他们很难和其他观众一样充分感受到比赛现场的这份激情。

在本次北京冬奥会的观众中,有一位来自武汉的听障人士。他表示,自己一直对冰雪赛事很关注,但在观看比赛时,最担心的地方就是「主持人语速较快,很容易错过一些内容」。

「如果体育赛事能够借助 AI 手语翻译及时传递动态,我的观赛体验也会大大提升。」

根据第二次全国残疾人抽样调查结果,中国有听障人士 2780 万人。手语是听障人士之间相互交流思想、获取外界信息的语言。目前许多新闻资讯、文娱节目中都缺少手语翻译,手语主持人「明显供不应求」,这为听障人士接收信息带来了不小的阻碍。

目前,大众对冰雪赛事的关注热情创下新高,这对大型赛事电视观赛体验提出了更高的要求,其中也包括对手语解说服务需求的提升。AI 手语数智人主播迎来了更加广阔的应用场景。

AI 手语数智人主播可以通过建立健听人语言体系、逼真的画面语言、连贯自然的动作和新词热词快速适配,提升 AI 手语表达的可懂度。

2022 年 2 月,腾讯 3D 手语数智人「聆语」在央视频 APP 落地,「聆语」也迎来了自己的第一份工作:央视频 AI 手语翻译官。


腾讯 3D 手语数智人「聆语」由腾讯云小微联合 PCG AI 等技术团队共同打造,整合多模态交互技术、3D 数字人建模、机器翻译语音识别自然语言理解等技术,让「聆语」的手语表达能力接近真人。腾讯自主研发了一套可视化动作编辑平台,为更专业的手语老师提供了友好的工具平台,可以让手语老师高效率的对全量手语动作进行精修。

截至目前,腾讯 3D 手语数智人「聆语」词汇和语句覆盖量超过 160 万,并针对体育赛事做了大量定向优化,手语可懂度 90% 以上,技术水准行业领先。

腾讯团队表示,他们希望为听障人士打造手语数智人,通过自身积累的 AI 技术,打造一款可懂度高的数智人,用技术为听障人士提供便利,这也是腾讯一直强调「科技向善」的理念。

打造 3D 手语数智人「聆语」有何挑战?

正如命名「聆语」所示,腾讯这款 3D 手语数智人是听障人士真正可懂的手语数字人。相比于其他的数智人,腾讯的手语数智人在技术上具备多项优势。

对于观众来说,如果数字人在表达时出现神态和动作僵硬不自然的问题,那么观感就会大打折扣。

在外观方面,「聆语」依托腾讯领先的 3D 重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉等技术,生成了高度还原真人发肤、动作自然生动的数字人。

笑意盈盈、一袭清爽蓝色套装的「聆语」最初亮相,就显著提升了手语播报的真实感与亲切感:


更具挑战性的是,与一般的口头表达相比,手语是一套视觉语言,存在语序、表情和口型呈现等诸多问题,更不用说在表达过程中手势切换的流畅连贯性了。这些问题都要求 AI 手语主播需要具备较高的手语表达能力和精准连贯的手语呈现能力。

如何让「聆语」像专业的手语主持人一样,实时、精准地传递解说内容,有效提高手语表达可懂度?

在手语动作方面,为了让「聆语」实现流畅的交互,腾讯团队的程序员们啃起了《国家通用手语词典》,并让「聆语」在上岗之前也认真学习了《国家通用手语词典》的规范。

经过漫长的手语调研、手语顾问团队建设,团队开发出了一套手语翻译系统。在手语解说时,「聆语」首先通过健听人语言与听障者手语的机器翻译能力,将健听人语言内容低延迟生成高准确率的手语语言表征。示例如下:


输入:他是我的手语老师
预处理:他 是 我 的 手语 老师
翻译:他 我 手语 老师 是


随后,「聆语」基于腾讯多模态端到端生成模型,进行联合建模及预测生成高准确率的动作、表情、唇动等序列,实现自然专业、易懂度高的手语效果。得益于腾讯云小微和PCG AI 在语音技术领域的长期积累,「聆语」的 AI 手语可懂度达到了90%以上。


赛场手语翻译的难点,包括要通过 ASR 技术,将比赛解说的语音从赛场现场的复杂环境声音中分离出来进行精准的识别,然后再将识别出来的文本信息进行智能摘要,使手语翻译能够和主持人语速达到匹配。接下来,将手语翻译生成手语视频,保证每个动作准确的同时,也要实现动作与动作之间的精准衔接。

在信息准确率方面,「聆语」还可以快速学习时下的新词热词,快速完成各种行业、业务场景和相关知识的学习,提升翻译准确性。

比如 17 岁小将苏翊鸣被称为「小栓子」,再比如谷爱凌,需要「首字母 + 唇形」才能定义成特殊的词。借助腾讯大数据技术能力,「聆语」能够做到快速及时地掌握热词,并进行手语词汇补充。

此外,「聆语」更贴合业务,产品落地能力更强。腾讯团队综合运用 3D 数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项 AI 技术,加深其感知理解,「聆语」支持业务场景更加丰富,业务数据积累量也更大。

AI 手语合成主播未来可期

随着 AI 交互智能的技术发展和应用落地,数智人已经成为很多行业的数字员工,辅助人类提供更加高效、精准的服务。

在新闻传媒领域,在 2021 年 10 月,广电总局在《广播电视和网络视听「十四五」科技发展规划》中也首次明确指出,要推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,创新节目形态,提高制播效率和智能化水平。

一直以来,腾讯云小微始终致力于推动 AI 交互智能领域的技术发展和产业应用落地。此前,腾讯云小微联合 PCG AI 等技术力量,打造了多个数智人方案,为大众提供客服、导览、讲解等多样化服务,涉及金融、传媒政务、家居、教育、展会、交通等众多领域。


未来,来自腾讯技术团队的「聆语」还将在更多场景提供服务,帮助听障人士和正常人一样了解、交流新闻时事,助力实现更好的无障碍信息传播环境。
入门数字人手语主播腾讯
1
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

助听技术

声音是由物体振动产生,正在发声的物体叫声源。声音只是压力波通过空气的运动。压力波振动内耳的小骨头(听小骨),这些振动被转化为微小的电子脑波,它就是我们觉察到的声音。内耳采用的原理与麦克风捕获声波或扬声器的发音一样,它是移动的机械部分与气压波之间的关系。自然,在声波音调低、移动缓慢并足够大时,我们实际上可以“感觉”到气压波振动身体。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
手语翻译技术

手语翻译是指将手语翻译为书面语言或口语。

推荐文章
暂无评论
暂无评论~