Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

球场之外,他们用AI给这支特殊的「中国女足」造了一双「耳朵」

提起中国女足,估计很多人都忘不了大年初六的那个不眠之夜。国足姑娘们在韩国女足 2-0 领先的巨大压力下舍命防守,最终以 3-2 的战绩完成了史诗级逆转,斩获亚洲杯冠军。这样的拼搏精神令人动容。

但很多人不知道的是,在无声的世界里,一支仅靠手语沟通的女足队伍也曾取得过骄人的战果。

图片

湛江聋人女子足球队的姑娘们。图源:http://www.52hrtt.com/zw/n/w/info/H1568090270933

这支球队于 2013 年成立于广东湛江,2015 年站上了省残运会的最高领奖台。2019 年,她们夺得了泰国曼谷第三届亚太聋人室内五人足球锦标赛第四名,队长陈智慧还获得了「亚洲最佳聋人女子守门员」称号。

图片

图源:像素笔记

几年过去,这些女孩也到了走向社会的年纪,为她们出谋划策的是她们的教练郑国栋。

郑国栋本是湛江特校的语文老师,靠着书和光碟一步步地摸索如何教听障孩子们踢球,还自创了一套球场上的沟通手势。他亲眼看到,足球这项运动如何让这些孩子变得越来越开朗、自信。足球场上的她们与健全人无异,甚至更加坚韧。

图片

在湛江聋人女足,郑国栋既是教练,也是父亲一样的存在。队员们对他的称呼是「爸爸」。图源:https://sports.qq.com/a/20160615/008975.htm

但离开这个大集体之后,这些女孩或多或少地遇到了一些麻烦。

「有些孩子发信息,说爸爸,我准备换工作了。我说你不是刚做两个月吗?怎么又换?她感觉没有认同感、存在感,一旦有些人给了不善意的眼光,她就感觉别人看不起她,对她有意见,心理上调节不过来,就觉得算了,不做了。」郑国栋低声说道。

类似的情况在听障群体中非常常见。由于沟通不畅,他们与外面的世界总是存在一些隔阂。这导致他们的就业面变得非常窄,即使找到工作也很难长期稳定地做下去,从而很难积累职业技能,随之生活也陷入困顿。

近些年来,社会加大了对这一群体的救助,比如部分省市为听障儿童、青少年免费植入人工耳蜗。

人工耳蜗是一种特殊的声能 - 电能转换电子装置。与助听器等其它类型的听觉辅助设备不同,人工耳蜗的工作原理不是放大声音,而是对位于耳蜗内、功能尚完好的听神经施加脉冲电刺激。这就决定了,即使植入了人工耳蜗,听障患者和普通人听到的声音也是不一样的。

「成人的耳蜗圈流行着三句话:安静环境下我们是正常人,噪音环境下我们是聋人,多人聊天我们是局外人。」中国人工耳蜗植入第一人陆峰就曾经这样自己的处境。也就是说,很多人工耳蜗植入者正常环境和安静环境下和人交流没问题 ,但是一到噪音环境下就听不清、跟不上了。陆峰说,这叫「二次听障」。

「在噪音环境下,老板说你怎么听不到我说话,你不是以前和我交流地很好吗?一两次之后 ,这对听障群体造成巨大的心理压力。所以我们这个圈子认为, 二次听障会比一次听障带来更大的心理伤害。」陆峰解释说。

图片

中国首例人工耳蜗植入者陆峰。图源:http://www.cndcm.cn/html/home/kangfuzhishi/1446_1.html

所以,对于听障患者来说,植入人工耳蜗并没有普通人想象得那么美好,利用降噪技术降低二次听障的伤害更重要。

提到降噪,一个很自然的想法就是在人工耳蜗中集成降噪算法,尤其是当前效果比较好的深度学习降噪算法。

但是,事情并没有那么简单。

「人工耳蜗由很小的电池来供电,而且用户一般早上戴上后,晚上才能摘下来,所以它对功耗的要求非常严格。这也导致人工耳蜗的芯片很难达到很高的算力,从而运行高计算复杂度的 AI 降噪算法。」腾讯会议天籁实验室主任商世东解释说。

功耗之外,健康问题也是一大考量,因为「植入体对设备工作时的温度有相当严苛的要求」,腾讯会议天籁实验室专家研究员肖玮补充说。

考虑到这些限制,天籁实验室给出了一个折中的方案——让手机去运行高算力的 AI 降噪算法,然后再把处理好的语音信息通过蓝牙传到人工耳蜗设备上。

图片

这个想法最早于 2020 年落地在国产人工耳蜗厂商诺尔康的产品上。为了打造这款产品,天籁实验室免费开放了打磨多年,并在腾讯会议亿级用户上经过验证的 AI 降噪算法,将新一代人工耳蜗的语音清晰度和可懂度提升了 40%。

来自广东顺德的晓婷是该产品的首批试用者。她的妈妈反馈说,在公园里,晓婷告诉她,「妈妈,我听到了鸟的声音,是两只鸟。」人工耳蜗和 AI 降噪算法的组合给了这个女孩一个不止「听得见」,更是「听得清」的感受,为她真正融入「有声世界」扫清了一些障碍。

图片

晓婷的梦想是成为一名舞蹈家。而她的妈妈只有一个非常简单的愿望,希望自己老了以后不用再担心晓婷。

不过,人工耳蜗虽好,能否达到理想效果却与听障者的年龄有关系。一般认为,人工耳蜗须及早植入,以赶上脑的听觉发育和语言发育的关键期。如果年纪较大,人的听觉和言语中枢就基本停止发育了,再植入耳蜗效果就比较差,语言能力很难提高。再者,虽然国产人工耳蜗已经将这类产品的价格降下来很多,但依然不是每个家庭都负担得起的。

因此,综合来看,只将 AI 算法与人工耳蜗相结合所覆盖的人群和场景可能比较有限。这也是腾讯会议天籁实验室在过去两年中所观察到的现实问题。

郑国栋球队里的队员大多都属于这种情况,因为家庭贫困,她们没有在听觉、语言发育的关键期植入人工耳蜗,之后生理条件也不允许再植入。所以他很希望社会能为这些人提供一些帮助:「科技的变化,无障碍沟通,我觉得都是非常好的,我也想过有没有方式能更方便地为聋人群体创造无障碍沟通的工具。就算不是真正意义上的无障碍,起码在很大程度上能为他们生活提供更好的沟通桥梁,我觉得这就已经足够了。」

目前,他的女足队员们正在试用一款辅听产品——由腾讯会议天籁实验室联合中国聋人协会、中国联通共同推出的畅听王卡升级版。

初代「畅听王卡」的设计非常简单,针对的是听障用户接打电话的场景:如果有电话打进来(比如外卖员),它会自动将接听界面转为类似微信聊天的场景,把对方的语音转换为文字,同时也把听障者打出的文字转换为语音。如今,这个简单的应用已经覆盖了 30 多万听障用户。

在 3 月 3 日「全国爱耳日」之际,腾讯天籁又联合中国联通推出了这一应用的升级版。

图片

升级版的发力点主要集中在辅听和字幕识别上,用肖玮的话说就是「对人的耳朵辅听,对机器也辅听」。

对人的耳朵辅听很好理解,就是借助 AI 降噪算法让听损者在嘈杂环境下听得更清。对机器辅听则体现在实时字幕上。对此,肖玮举了一个生动的例子:「假设一个有听力障碍的大娘去买菜。因为现场说话很嘈杂,大娘很难跟菜农沟通。这个时候,大娘可以手持手机,手机安装了畅听王卡的 APP,里面搭载了天籁音频 AI 降噪技术。菜农说活的声音被这个手机接收之后,大字就会横屏显示在手机上,从而帮助大娘更顺畅地交流。」

这些都是由腾讯天籁专门为听障用户打造的个性化 AI 语音增强辅听算法来支持的,它可以同时赋能语音通话和实时字幕双场景,实现典型噪音场景下单一字节言语识别率提升 66%,实时字幕识别准确率提高了 5.5-9.9 个百分点。

这种以软件为载体的辅听方式大大降低了听障患者使用辅听产品的成本,覆盖人群不仅限于听障者,还可以扩展到普通听损者,比如上了年纪的老年人。随着老龄化的加剧,这一人群的规模将持续扩大。

不过,提到成本,腾讯天籁与美笛乐合作的「美讯听宝 APP」也是非常值得一提的。

听障的治疗是一个漫长的过程,而且非常个性化,需要经历测听(类似配眼镜时的验光)、调机(把人工耳蜗调到最佳状态)等繁琐的过程,往往给听障家庭带来很大的经济压力。

美讯听宝将测听、辅听、远程康复服务集中到了一个 APP 上,可以让听障人士不出家门就能随时掌握自身听力状态,并远程连线听力和康复专家接受会诊调机和康复指导服务。其特有的 AI 辅听功能还能让听损者借助一副蓝牙耳机听到更清晰的声音。

从成本上来说,美笛乐也给我们做了统计,平均每次可以节省 3000 人民币的费用,对一些用户来说,一年算下来的节省成本还是蛮可观的。」肖玮颇为欣慰地说到。

图片

从技术研究到产业落地,再到在公益领域找到新的用武之地,商世东和肖玮都经历了一段不同寻常的职业生涯。在谈到所做的事情时,他们提到了同一个词——「成就感」。商世东甚至曾经说过,「过去所有工作带给我的成就感,都没有晓婷给我的这么大」。

此外,商世东也提到了他们在打磨这些产品时遇到的一些挑战,比如辅听设备对延迟的严格要求。

「我们在腾讯会议也要使用降噪技术,因为开会的两个人往往不是在同一个环境里面,对延迟的要求可以放宽到上百毫秒。但对于助听设备佩戴者来说,他和另一个对话者可能在同一个房间里面,间隔就几米,声音既可以直接传到对方耳朵里,也可以通过助听器降噪、放大、做完补偿以后再传过去,它对延迟的要求在 10 毫秒以下。这两者的技术挑战是不一样的,整个技术路线也是不一样的。」

「我们在这个过程当中做了很多的工作,把面向腾讯会议产品的降噪技术在一个低延迟、低功耗的限制下做到最好的体验,能够尽可能在延迟、功耗和效果上取得最好的平衡,实验室在这方面投入了很多的资源,包括人力资源、研究资源、经济资源与云上的资源,来训练、开发这样的模型。」商世东介绍说。

由此可见,把现有的技术用到公益场景其实并非简单的技术迁移,背后还有很多工作要做。

展望未来,除了继续迭代现有的算法和产品,商世东和肖玮所在的团队也在积极寻找新的可能性。在他们看来,通信产品开发过程当中用到的多项技术,如降噪、波束形成、声反馈抑制,在整个助听器、人工耳蜗领域都有很大的用武之地。国内的产品之所以和国际上最好的产品还有一定的距离,其中的技术瓶颈也是在这里。此外,芯片能力的不断提升和功耗的不断下降,以及无线连接、5G、WiFi、蓝牙 5.0、BLE 等互联互通技术的崛起都将为助听设备的发展提供更广阔的空间。

助听器行业跟很多家居的、养老的、IOT 的应用可以结合起来。如果之间能够实现很好的助听体验,一些数据可以互联互通结合起来,这里面的想象空间也是巨大的。」商世东说到。

参考链接:http://www.52hrtt.com/zw/n/w/info/H1568090270933
https://zhuanlan.zhihu.com/p/82324705
https://www.tencent.com/zh-cn/articles/2201096.html
产业腾讯公益
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

语音增强技术

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。 主要包括1. 语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3. 语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

助听技术

声音是由物体振动产生,正在发声的物体叫声源。声音只是压力波通过空气的运动。压力波振动内耳的小骨头(听小骨),这些振动被转化为微小的电子脑波,它就是我们觉察到的声音。内耳采用的原理与麦克风捕获声波或扬声器的发音一样,它是移动的机械部分与气压波之间的关系。自然,在声波音调低、移动缓慢并足够大时,我们实际上可以“感觉”到气压波振动身体。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

暂无评论
暂无评论~