Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
穿颜色成对的袜子,追最新的剧:这群coder正帮视障者移走身上的大山
在你的印象中,视障群体一般会从事哪些职业?如果被问到这个问题,大多数人想到的第一个答案可能都是推拿师、按摩师。恐怕,没有人会想到「化妆师」。「盲人怎么还能化妆、拍抖音、回私信呢?是骗人的吧!」抖音视频博主「盲人美妆师肖佳」经常会受到这种质疑。和很多视障人士一样,肖佳最初也从事过按摩工作,但这份工作并没有束缚住她。北漂的经历让她发现了自己人生的更多可能性并找到了兴趣所在。6 年间,她教会了数千名视障女性化妆。其实从肖佳的身上不难看到,随着技术的进步,视障群体的就业范围早就不再局限于推拿、按摩等传统行业,越来越多的视障者渴望或正在从事和明眼人一样的工作,比如有声主播、云客服、数据标注师等。只是,这一人群所占的比例还比较小。这其中的原因是多重的,包括工作机会少、无障碍支持做得还不够等等,这导致很多视障者在「迈出家门」这一步就被卡住了。为了改变这一群体的境遇,社会各界正从各个方向发力,科技是其中一个比较有效的方向,包括近年来已经在各行各业找到应用场景的 AI 技术。不过,对于技术人员来说,尝试用 AI 帮助视障群体可能并不容易,因为这类项目的用户调研更难开展,可借鉴的成熟模式也比较有限。就像字节跳动的一位算法工程师所说,「我们隐约觉得视障群体会因为看不见东西而面临很多困难,但是具体有什么困难我们也不知道」。在 AI 技术圈,抱有相同疑惑的工程师不在少数。因此,从去年 8 月份开始,字节跳动就组织了一场以「AI 助力视障群体」为主题的大赛,即「2022 技术公益创新杯大赛」,希望助力视障群体在生活和工作上更好地融入社会。为了确保选手对视障人群有足够的了解,同时确保他们的创意作品有足够的迭代时间,大赛在比赛初期就引入了肖佳等受益人评委,而且用 5 个多月的时间组织了初赛、复赛、决赛三大环节。双方在经历了多轮沟通、交流之后都对要解决的问题、可应用的技术有了新的认识,也为广大想要在这一领域有所贡献的技术人员提供了一些参考。对于明眼人来说,生活中能够感知到的无障碍设施其实并不多,盲道算是最为明显的一个。很多人会吐槽盲道会导到树上或沟里,用起来令人胆战心惊。但受益人评委之一、北京一加一残障公益集团合伙人傅高山却说,这些吐槽其实并没有抓住重点,视障者本身有办法避开上述障碍。比起吐槽中提到的问题,更加困扰傅高山的其实是一些开阔区域盲道的缺失,比如斑马线。这些地方参照物少得可怜,视障者很容易走歪、进错路,这恰恰是盲道应该发挥作用的地方。想要做一款「助视辅具」帮助视障人群了解周边环境的微光团队回忆说,他们起初设计的产品包含危险物品的识别,比如提醒视障者前面有个坑,或周围有刀具。但在进行深入的用户访谈后,他们放弃了这个功能。因为视障者借助盲杖等工具也能探测到危险物品。在熟悉的环境中,他们甚至能把周边物体的位置背下来。主打「对话式视觉助手」的灵瞳团队也遇到了需求理解不到位的问题。他们的产品逻辑是让 AI 理解视障者拍的照片,以问答的方式告诉他们照片上的信息。在最初的版本中,他们设计了一个提醒视障者物品是否入镜的功能,不过后来因为交互起来不够简洁又把这个功能删掉了。但傅高山告诉他们,这个功能对于视障用户还是很重要的,所以他们最后又把这个功能捡了回来,并尝试用更简洁的交互逻辑来实现它。很多人在听到「视障者」这个词的时候,都会简单地将其等同于「盲人」,这无疑是一种误解。其实,截至 2021 年,我国总共有 1750 万视障群体,其中盲人有 875 万,其余可以被归为「低视力」等范畴。在傅高山身上,微光团队看到了这两类群体的差异。傅高山本身属于低视力,所以他希望助视辅具不仅告诉他某个餐馆在屏幕的哪个方向,还要提供一个放大镜功能,方便他贴到眼睛上看。「这是之前没有想到的需求,」微光的队长坦言。除了视力,视障群体对光的感知能力也是不同的。有光感的肖佳习惯于晚上开灯,因为那种「亮亮的感觉」让她觉得很舒服。但没有光感的另一位视障用户同样习惯于晚上开 / 关灯,因为他需要以此为信号告诉别人他是否在休息。不过,和肖佳不同,他还需要借助某种方法判断灯是开着还是关着。在了解到这一需求后,微光团队把将亮度检测功能加入了自己的作品。这种光谱式的需求点挖掘让受益人评委深感欣慰。傅高山评价说,「我们社会并不是所有人对残障的认知都达到了正确理解的程度。同学们的作品其实开了一个好头,就是识别用户。在这个用户光谱里,还有很多处在渐变色的中间用户,其实这部分用户是最值得被挖掘出来的。」在明确了视障群体的需求之后,选手们接下来面临的问题就是怎么满足这些需求,以什么产品形态来满足。普通技术人员最容易想到的品类可能就是智能眼镜,因为这和人的眼睛在形态、功能上是最像的。这类眼镜往往用摄像头采集数据,然后用耳机把 AI 处理后的结果播报给用户。这些年,傅高山已经见过不下五款智能眼镜,设计者的想法基本都是「你眼睛不好,我就给你补两颗智能的」。起初,微光团队的助视辅具也有这种倾向,但傅高山的一番解释让他们明白了为什么这种形式行不通。首先,从信息采集方式来看,人的头部在行走过程中是不稳定的。其次,眼镜 + 耳机的形式大量占用耳朵,而耳朵又是视障者接收周围信息的重要感官。为了保持听觉的灵敏,他们下雨天甚至都不怎么打伞。最后,视障者其实希望在接受技术辅助时拥有自主权。他们不需要辅具时时刻刻工作,只想在需要的时候拿出来用一下。因此,他们希望这款辅具是方便摘取且按需播报的。「我们期望技术能解决的,就是遵循现有的方式,让视障者的学习成本更低、便利性更高。如果想做一款设备来替代人的器官,目前来看,这种思路基本都不可行。」傅高山解释说。在听取了傅高山的建议后,微光团队把助视辅具的形态改成了颈挂式,交互方式也演变成了用扬声器按需播报。这款设备可以满足日常生活、出行的一些基本需求,比如物体、信息识别,建筑物内导航等。此外,该设备还支持向附近在线的人发起求助。「您试用过选手的作品吗,感觉怎么样?」在被问及这个问题时,傅高山的回答是:超出期待。以灵瞳团队的「对话式视觉助手」为例,傅高山对它的期待原本是:能实现一个功能就很有价值了,结果灵瞳做出了很多个。通过对话式主动智能,你既可以问视觉助手衣服的款式和价格、 袜子的颜色是否一致、薯片的口味和保质期,也可以和它聊聊文章的配图、电商主播的穿搭……这种主动式的对话方式有多方便呢?在一个视频中,肖佳曾介绍过她如何获取药品信息:先把说明书拍下来,然后找一个 OCR 软件进行识别,最后再借助读屏软件把所有信息读出来。这种信息获取方式是非常低效的,因此听语速飞快的倍速语音成为了每个视障者必备的技能。但在主动式对话交互中,视障者不需要再忍受这种折磨,在接收技术辅助的时候拥有了更多自主权。这种超出期待的能力离不开多模态技术的支持。灵瞳团队介绍说,目前国际学术界很多人都在尝试用 VQA(视觉问答)等多模态方法解决视障类问题,只是还没有实现大规模工程落地。vizwiz 公开的用于解决视障类问题的 VQA-Grounding 数据集。照片由视障者拍摄。同样采用了多模态技术的还有聆影听光团队,他们的目标是用 AI 实现视频无对白片段的内容理解,进而为这些片段生成旁白,方便视障群体追剧、看电影、刷视频。与传统的人工方式相比,他们的方法会显著降低无障碍视频的制作成本和周期,满足了视障者想和朋友沟通最新影视作品的愿望。当然,受到多模态技术发展水平和可用数据集等方面的限制,这些应用的准确率现在还达不到那么高,因此选手会担心把这样的产品拿给视障群体用是不负责任。但傅高山很喜欢这些作品,因为根据他自己的体验,视障者其实对这些 AI 技术是有一定的容错能力的,比如「你即使把 57 路公交车看成 51 路,我也能判断车它是 57,因为我知道这个站点没有 51 路」。「只要是在正确的路上,有就比没有强,」傅高山总结说。「视障是压在身上的一座大山。你从小就是被否定的,你看不见就做不了这,做不了那,你自己也那么认为。」肖佳这番话道出了很多人对于视障群体的刻板观念,这也是很多视障问题迟迟难以解决的根源。持有这种观念的明眼人在帮助视障群体时往往会以一种「面对面」而非「肩并肩」的态度来看待事情。「比如我们想象一个画面,在飞机座舱里面,一个空乘背着一个肢体障碍者。可能从外界的角度,他很容易看到航空公司提供了温暖的服务。但从障碍者的角度来看,他会想为什么飞机上没有轮椅。作为被背着的那个人,他其实没有那么舒服。」傅高山解释说。在傅高山看来,灵瞳、微光等团队的可贵之处在于,他们在帮助视障群体的过程中完成了从「面对面」到「肩并肩」的视角切换,真正做到了站在视障者的视角去解决问题。这种让视障者更加自主的解决问题的方式对于他们建立自信也非常重要。当做很多小事的学习成本降下来之后,他们会更加愿意尝试。就像肖佳所说,视障者学会了化妆就不会只想做按摩师,也会想尝试主播等新兴职业。在经历了 5 个多月的赛程后,2022 技术公益创新杯终于在前段时间迎来了决赛。文中提到的几个团队均在决赛中取得了优异的成绩。其中,灵瞳和聆影听光团队获得了大赛一等奖,灵瞳还和微光团队一起获得了最受欢迎奖。虽然比赛已经告一段落,但从更长的时间维度来看,它只是一个开始。目前,大赛的相关人员已经开始着手后续的孵化工作,希望大赛中诞生的这些 idea 能够让更多的视障者过上更加体面的生活。