Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

陈孝良作者

3D手势识别技术兴起,超声技术是最好的方案吗?

自从微软发布Kinect以来,体感设备的3D手势识别一直就是热潮。那么什么是3D手势识别呢?简单来说,这项技术就是利用各类传感器对手部/手持工具的形态、位移等进行持续采集,每隔一段时间完成一次建模,形成一个模型信息的序列帧,再将这些信息序列转换为对应的指令,用来控制实现某些操作。随着各项技术的成熟和传感器的发展,手势识别已经进入可用性阶段,各类产品和解决方案也开始涌现,其中,应用最为广泛的是游戏设备中利用摄像头的计算机视觉识别。但其他方案,如红外识别、电场识别、雷达识别以及超声波识别也是潜在的竞争方案,而且这些方案相对摄像头的计算机视觉识别来说,更有可能成为未来的主要技术。

科研人员创业最大的弊端就是过度关注某个技术的细节不能自拔,总想以高大上的技术强迫用户接受,甚至膜拜。假如我们换个角度思考,若你作为用户拿出钱包出去消费,难道就是为了买这种无聊的技术膜拜吗?因此每当看到一些热点技术,我们应该首先关注的便是这种技术的应用场景,然后再从原理上分析有几种可以实现的方案,其中哪个方案更容易适应市场并且能被用户快速接受。事实上,自然进化过程中我们就形成了以语音和手势为主的交互方式,但是自计算机诞生以来,我们却发明了键盘和鼠标,并且一直作为人机交互的主要载体。显然这不符合我们日常生活的习惯,而且交流的效率也不高。因为键盘和鼠标还都属于文本交互模式,这种文本模式更适合我们学习和记忆,别忘了我们知识传承的主要载体就是书籍。语音识别和视频识别之所以如此火爆,也是因为带来幻想是对键盘、鼠标的替代,是一种交互模式的颠覆。

最困难的商业模式就是挖掘人类最本质的需求和最简单的应用。当然,3D手势识别不是为了颠覆人机交互的模式,而是可以引发更多的变革,例如全新的游戏操控方式,全新的家电控制方式,全新的汽车操控方式;用手指进行空中绘画,用手指在空中演奏音乐,用手指传递信息数据;还有就像我们在《钢铁侠》里看到的那样,设计师、建筑师等可以直接对3D模型进行设计、拆解和分析。正因为如此,3D手势识别拥有特别广阔的想象空间,可以延伸出无数的产品,所以这个领域的争夺也将会十分激烈。

接下来,我们来分析一下几种手势识别的技术方案。

先看最常用的方案,基于摄像头的视频手势识别和红外手势识别最大的问题就是光线的影响,也就是这两种方式无法做到全天候应用,红外显然更怕户外的强光,而摄像头更怕夜晚的弱光。另外视频手势识别的功耗和成本显然都是太高了,至少目前来看还很难普及应用。这个领域中最火热的自然是Leap Motion,根据其宣传,摄像头最大频率是每秒钟290帧,即每秒钟建立290个手部的3D模型,还可以追踪到传感器上方25 mm~ 600 mm范围内,150度视角中精确到0.01毫米的动作。显然这种方案的成本也是非常昂贵的,微软的Kinect也要借助多个摄像头包括红外才能做到我们所能体验的效果。

电场识别的主要问题则是距离太近,比如MYO臂环,要佩戴在任何一条胳膊的肘关节上方,探测用户的肌肉产生的电活动。臂带上的感应器捕捉到用户手臂肌肉运动时产生的生物电变化,从而判断佩戴者的意图,再将电脑处理的结果通过蓝牙发送至受控设备。

超声和雷达显然具有更好的环境适应性,这两个方案也是笔者最为看好的两种技术。雷达的技术方案相比超声来说,可辨别手势的精度更高,但是笔者并不喜欢这这个方案,这是为什么呢?因为雷达基本采用300M-300G Hz的频段(13G-150G Hz是主流),而手势识别的一般要到10G Hz以上。事实上,这些频段我们都可以称为微波。微波大家应该熟悉,想想我们家里用的微波炉。微波的属性,也就是说雷达所在的频段有一些特性,比如遇到金属会反射,所以电梯里不加中继就没有手机信号。当然这些倒都无妨,其关键的是微波遇到生物组织会被吸收并且转为热量,想想家中的微波炉的快速加热作用,这里就不言而喻了。而迄今为止,有哪些实验证明了微波频段对人体没有伤害呢?专家说了也没发现对人体有害的证据,你信吗?反正我是信了,专家嘛总要给个面子。目前,我们身边已经有了手机、WiFi,还好功率小些,影响不是太大,若周边所有的设备都再加个10G-80G Hz的手势识别装置,我是拒绝的。

那么超声就没有危害吗?当然也有,超声本来就是一种声音,只是我们听不到,即便我们听到的声音,若声压超过了130分贝也会对我们造成伤害。世界上任何一种技术都具有两面性,既可以造福我们提供便利,也可以伤害我们,比如核能技术。但相对其他方案来说,超声器件生产制造中更容易控制功率,即便过量了也很难引起我们基因层面的伤害,而且这种技术在手势识别中的距离范围比较大,从近场到远场几乎都可以做到,关键的是,这种技术真的是很廉价可靠。

下面,我们把上面的几种技术方案汇总一下,做个表格便是一目了然了,具体请看如下:

下面具体再看下超声手势识别的技术细节,该技术方案除了利用我们熟悉的超声测距来侦测物体(倒车雷达其实就是超声测距),还利用了多普勒效应来侦测手指的运动和手势。我们都知道多普勒现象,即声音频率的改变与声源及听者之间的距离有关,比如警笛呼啸而过时的那种声音的变化。超声手势识别就是用压电器件做超声发射源(中心频率大于20K Hz),而接收的频率则会随着手指或身体的位置的变化而变化。通过测量这一频率的变化,然后通过算法进行频率和相位方面的计算,就能准确定位和识别手势的内容。通常来说,超声的频率越高,识别的精度也就会越高,但是识别的距离却会变小。

归结来说,超声手势识别应该是当前最有可能普及的一项技术方案,当然这个技术方案也存在一些缺陷和不足,比如识别精度无法媲美雷达方案。但技术是不断迭代的,而且我们都知道无法指望单凭某一技术就满足用户的所有场景。我们生活中所碰到的任何物品,几乎都是多种技术结合的产物,而未来3D手势识别最好的技术方案,应该是声光电一体的解决方案,犹如人体结构的多种感官共同作用。

声学在线
声学在线

产业手势识别电场识别计算机视觉人机交互
相关数据
计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
暂无评论
暂无评论~