Rik R编译

这家专门为盲人制造AI可穿戴设备的公司,估值刚刚达到10亿美元

美国空军退役军官 Stephen Hamilton 在完全失明并放弃治疗之前,已经接受了 7 次失败的角膜移植手术和 18 次外科手术。失明后的他不得不辞去网络工程师和建筑师的工作。Stephen Hamilton他曾经参加过一个为期数月的训练课程,该课程针对的是弱视和失明的退伍军人,帮助他们在内华达州里诺市的 VA 中学习方位导航,Hamilton 有机会尝试了一个小型的阅读辅助设备。

这款附着在眼镜上的可穿戴设备叫做 OrCam MyEye,当用户用手指指向一处印刷文本时,比如一个符号、一本书、一张报纸、一份菜单等,它就会利用深度学习来解析该文本语言,并通过一个小喇叭将其朗读出来。

尽管 Hamilton 已完全失明,但他的表现也展示出,他有能力使用 MyEye,而这款产品主要是为弱视人士设计的。

在他第一次返回中心房间时,他驻足在门前(他知道房间在哪里,因为他已经学会了计算到那里的时间)并用手指向标志。「Stephen Hamilton,」设备朗读道。「我哭了出来,因为我意识到,自己是可以获得一些自理能力的,」Hamilton 说。

现在,Hamilton 随处都带着它。制造这款穿戴设备的以色列公司在 2017 年 10 月发布了一款全新的无线版文本识别设备 MyEye 2,Hamilton 在第一个月就买下了它。

可以说 OrCam 改变了 Hamilton 的生活。

这家公司由计算机科学家 Amnon Shashua 和企业家 Ziv Aviram 于 2010 年创立,在 2018 年估值达到 10 亿美元。

这款产品的成功主要归功于其聪颖而直观的界面,该界面操作起来简洁易懂,操作过程主要基于「用手去指」这个手势。

用户只需指向任何想要读取的文本,摄像头就会对手进行识别,然后对文本拍照并朗读内容。

该设备异常精确,你可以指向一页中的特定一行,它会从那个位置开始阅读。

「我们认为,用手指向某物,这是最自然的人类行为,」该公司的 CEO Aviram 说道,「比如儿童,他们会指着某物问,这是什么?」

基于指向手势的 MyEye 在绝大多数情况下都能正常工作,提醒用户页面是否颠倒,或是没有足够的自然光。不过它也有很多其它用途:

它可以记住并识别 100 张面孔、识别出数百万种产品、存储 150 种附加对象,比如信用卡信息或杂货店购买清单,还能识别颜色,这在用户出门前选衣服时特别有用。

MyEye 根据用户所指向的位置决定阅读内容,这对于全盲用户来说或许有些困难,尽管 Hamilton 称他在几周后便适应了这种导航操作。该产品还有个自动面部识别模式,可以读出所有进入用户视线的人的名字。

用户只需转一转手腕,像假装看表那样,MyEye 就会播送当下的时间;要禁用阅读功能,用户只需做出一个停止的手势。

「在我的想象中,盲人就是残疾人。但我不再感到自己是残疾人了,」Hamilton 说,「我感受到了从未奢求过的自由。」

原理解析

OrCam 花了 5 年的时间开发 MyEye,包括于 2015 年推出的手势界面。在开发过程中,Aviram 说,他和他的团队与数百名潜在用户交谈,其中有 90% 的人表示,他们想要获得阅读能力。这令他感到惊讶,因此,为了加深对这一需求的理解,他试图花一天的时间来做试验,避免让自己通过眼睛阅读。

「一个小时后,我明白了为什么这很重要,」他说。「只要 5 分钟,你就会明白,我们的世界有太多东西是由书面材料构成的。」

 MyEye 的其余功能也来自用户研究。

一些用户要求颜色识别能力,这是 Aviram 也未曾想到的。有人说:「我不能在一米远的地方认出我的妻子,」Aviram 说,并促使团队增加面部识别功能。

许多这些功能也可以在其它产品中见到,但后者往往只提供其中之一。Hamilton 注意到了他的许多其它设备:一个笨拙的文本阅读器、一个条形码读取设备、一个颜色识别设备。「它并不是那么实用,」他说道,「我不可能把那个大东西拖到邮箱里,然后浏览我的邮件。」

第一版 MyEye 还包括一个智能手机大小的计算包,通过一根电缆连接到相机。MyEye 2.0 则不再需要这个额外的计算包——整个装置的尺寸约等于你的手指大小,只有 0.8 盎司。

难以置信的是,所有功能——文本-语音转化以及面部 & 物件识别——都没有使用云端协助,完全是在该微型设备内进行。OrCam 1.0

MyEye 使用深度学习算法进行训练,基于数百万张文本和产品图像。「这差不多类似于儿童学习新事物的过程。」Aviram 说,「将其暴露于大量的数据和复杂的算法中,你可以教设备识别不同的产品、面孔和语言。」所有处理过程都是实时离线完成的,这是保护用户隐私的重要举措。

据该公司称,这款设备已经为 Hamilton 及成千上万个用户提供了一种新式自理能力。「去书店坐下来,阅读一本书,这是一件乐事。」Hamilton 说,「除非看到我的手杖,否则没有人知道我是盲人。如果他们真的发现了,就会感到有点不知所措,因为我正在餐馆里看一本普通的书或菜单。」

该设备经历过若干小时的训练,同样,用户也需要经历若干星期才能适应它,特别是在头部定位方面。

目前,Hamilton 对该产品的最大抱怨在于,它的续航能力只有 1.5~2 个小时,而充电过程则需要 40 分钟。无论去哪里,他都得随身携带一个备用电池组。他也希望有那么一天,自己无需再配戴眼镜,MyEye 可以被安装到耳朵后面去。

但 MyEye 也会犯一些错误。Hamilton 回忆说,有一次他在餐馆用餐,MyEye 1.0 将女服务员误认成了男性;但是二代 MyEye 再没有犯过这种错误。

 OrCam 的潜在用户不仅仅是弱视者和盲人,还包括难语症患者或有其它阅读障碍的人,以及厌倦快速阅读的老年人。

到目前为止,OrCam 称它已经在 23 个国家售出了数万台设备,并支持 18 种语言——该团队目前正在研究东亚语言。

同时,Aviram 也在展望这种手势界面的未来。

MyEye 2.0 包括一个麦克风,「是为更加高级的接口做准备,」他说。他设想将语音助手和手势系统集成在一起,这样用户就能够进行更自然的人机对话。

例如,用户可以指向一个文档,并问 MyEye 那是什么。如果那是他们的电话账单,那么用户就可以向 MyEye 询问话费,而不是要求该设备读取整个页面,或是随机指向来找出正确信息。

这种手势-语音的组合界面将允许用户让 MyEye 只读取相关标题,然后再要求它阅读特定章节的完整内容。

眼下,令一些用户懊恼不已的是,MyEye 无法为他们提供更多有关其面前场景的信息。在 OrCam 的销售总监 Rhys Filmer 给我演示这个设备时,他告诉我有些人希望它能描述他们面前的场景——从本质上说,他们希望它完全取代自己的视觉。

但这项技术还不太成熟,而且需要将 MyEye 连接到智能手机或云端,而这就涉及到隐私问题了。

现在,MyEye 向我们展示了手势界面的未来,我们可以使用自己的声音和身体来与一个智能助手进行轻松的交流,它会为你转述并响应这个世界。

虽然这种技术不能帮助盲人重拾光明,但却可以帮助他们更有效地导航方位——在一个不是为他们而设计的世界里。

产业文本识别可穿戴设备盲人MyEyeOrCam
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

推荐文章
暂无评论
暂无评论~