快手上线手部姿态估计功能,官方揭秘秒变闪电手背后的奥秘

转动一下手指和手掌,钢铁侠迅速就完成了战甲制作,这种神技能让屏幕外的粉丝们一秒跪服。钢铁侠的“纯手势感应”也成为一个被科技行业频繁讨论的话题。

那普通人是否也能获得这种狂拽酷炫吊炸天的操作技能呢?

可以。快手给出了答案。                                   

快手上线“装X神器“:秒变闪电手

随着技术的发展,研发人员越来越希望寻找一些不同的人机交互方式,其中实时手部姿态估计就是科学家们重点关注的研究方向之一 。简单的说,手部姿态估计是让计算机理解人体肢体语言的一种手段。通过该技术,人机交互不再限于文字接口或者鼠标键盘控制的用户图像界面。

近日,快手上线了手部姿态估计功能,成为行业首家。这个功能给普通人赋予了“装X神器”:动动手,就可以实现酷炫的特效。

用户只要按照说明做出相应的手势,就可以被加上各种有意思的特效。比如,用户可以在视频中当一回真正的“奥特曼”,发射出动感光波球。还可以秒变狼爪、闪电手。展示童年时倾慕的漫威形象用的大招,通通不是问题。

用户在使用这款产品拍摄时,算法会自动识别出手型类别,并估计手部关键点位置。根据关键点位置和手型类别,可以产生不同的特效效果或者跟画面内容进行人机交互。用户既可以通过手型触发相应的特效效果,也可以实现指节级精准控制。

这个功能上线后,有大量的用户尝试这些新奇的玩法。

揭秘手势识别,快手解决了哪些问题?

手势识别技术由快手2016年组建的Y-Lab团队手势研发小组研发。这一年,为了研发出更多能给用户带来新奇体验的新技术,快手组建了一支由高学历研发人员组成的队伍,研究领域涉及人工智能机器学习、计算机视觉、计算机图形学和增强现实 等。2018年,为了让技术能更好的和产品结合,快手将Y-Lab更名为Y-tech。

据Y-tech手势研发组负责人介绍,手势识别技术是指检测图片或视频中的人手,并预测检出人手的手型以及关键点位置的技术。

常见的手势识别技术包括:手型识别、二维手部姿态估计和三维手部姿态估计。从手型识别到三维手部姿态估计,需要识别的信息越来越多,研发困难指数级增加。在上面演示的功能里,就包含了:人手检测、手型识别和二维手部姿态估计。

目前手型识别在业界已比较成熟,而二维手部姿态估计目前还不是很成熟,据介绍,快手应该是业界首家在移动端上应用该技术的公司。而三维手部姿态估计技术难度较大,目前只能通过特殊的硬件,比如双目和深度摄像头才能实现。

研发手势识别过程中,Y-tech团队积累了很多技术和解决方案,包括算法策略、网络结构设计、模型优化和底层加速等,这些经验也完全可以复用到其他场景中。

相比于目前人工智能领域落地比较广泛的人脸识别,手势识别技术存在着一些技术难点,Y-tech手势研发负责人表示:“手部的自由度很高,自遮挡严重,特征不明显,相对人脸会更难一些。”

以快手为例,目前这一功能可同时检测多手,支持多达17种手型识别,并能够识别21个手部二维关键点。为了实现这些功能,研发团队克服了不少难题:

•   人手在相机中的占比较小,高效的进行小目标检测目前在业界是很难的问题;

•   人手自遮挡严重关节活动自由度高

•   用户手机只有单目图像,需纯靠视觉算法实现;

•   用户手机摄像头拍摄质量不同用户在摆同样手型时方式多样

该负责人表示,团队先是改进了检测算法的框架,提高了小目标的检测能力,并且根据人手的特点,融合先验知识,降低问题复杂度,达到了提升预测效果。

由于不同用户手机的运算能力是不同的,而同一款软件要想被更多用户使用,就要兼顾各种机型的情况,快手AI实验室通过两方面解决了这一难题:

一、在算法层面,研发人员设计了高效的神经网络结构,并且在不同的机型上采用了不同算法策略;

二、在工程实现上,通过快手自研的YCNN对不同手机的硬件架构做了高度的适配和性能优化,能够使用CPU、GPU、NPU、DSP等多种运行模式,解决了AI技术运行受限于用户设备计算量的问题。

下一步:未来将尝试三维手部重建

对于快手来说,在手机应用中增加手势识别功能是一项尝试,功能上肯定是有不少需要完善的地方,研发团队告诉我们,目前该产品算法对运动模糊和手部重叠的处理还不完善,是接下来需要重点解决的问题,并且未来团队会尝试在端上进行三维手部重建,为更精确的动作识别和交互做技术储备。除了在短视频领域有所应用,在游戏、增强现实、直播、教育等领域应用手势识别技术也将成为一种趋势,同样也是快手探索的方向。

手势识别技术发展至今,已经有不少企业在不同的领域进行过尝试,未来手势识别的应用场景也是十分广阔的,除了小手识别和运动模糊等传统问题之外,如何结合端上双目摄像头和深度摄像头信息提升手势识别效果也将是行业重点关注的问题。

产业目标检测手势识别人机交互手部姿态估计快手
1
相关数据
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

推荐文章
暂无评论
暂无评论~