Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

光学追踪+裸手识别,是时候跟游戏手柄说再见了吗?

Phone 15/Pro 系列发售在即,但一个有趣的现象是,在 iPhone 成为一种象征的同时——想想过去半年来你听过多少次「iPhone 时刻」—— iPhone 作为手机本身却大有泯然众生之势。苹果公司认为下一代的革命性产品是 Apple Vision Pro,其无手柄的设计引发了大量讨论。

Apple Vision Pro 挑战了我们对 XR 用户体验的传统认知,提供了一种全新的、更为直观的交互方式。然而,尽管去手柄化在某些场景下有其独特的优势,但手柄在 XR 交互方式中的重要性仍然不容忽视。

手柄作为一种成熟且被广泛接受的交互工具,在需要精确输入或复杂操作的情况下,例如一些游戏或绘画、手术模拟等专业训练中,通常可以提供更好的体验。此外,手柄能为用户提供触觉反馈,这是目前无手柄方案难以实现的,而触觉对于创建沉浸式体验又至关重要。

不过,传统的手柄往往体积较大,重量较重,长时间使用可能会引起用户的疲劳。因此,许多 XR 厂商一直致力于研发更轻、更小巧的手柄设备,以提升用户体验。

但是,轻量化手柄的研发面临多个难点,其中一项主要的挑战便是高精度追踪的问题:首先,小型化设备限制了传感器的大小和数量;其次,由于手柄小,用户可能会更频繁地做出快速和复杂的手势,这也对追踪系统的稳定性和准确性提出了更高的要求。此外,高精度的追踪通常需要进行更多的计算,因此功耗管理也是小型化手柄研发中的一个重要挑战。

融合光学追踪与裸手识别算法
实现遮挡情况下稳定追踪

基于 AI 方面的积累,PICO 创新性地提出了一种多模态的手柄追踪解决方案,成功在小型化手柄上实现了稳定的高精度追踪。

「我们在人手握姿的实时估计方法、多模态下的数据融合方法,以及基于 IMU(Inertial Measurement Unit,惯性测量单元)的高精度预测方法等方面,取得了一些突破创新,」PICO 研发团队表示:「提出了一种多模态的手持控制器追踪方法,能够提供更广的追踪范围,减小追踪盲区,为用户带来更好的体验。」

PICO 此次自研的 Centaur多模态追踪算法,将光学追踪算法与 CV 模态下的手柄追踪算法融合,其中光学追踪算法通过识别手柄中 LED 灯发射出的红外光(IR),实现对手柄的定位追踪;CV 模态手柄追踪算法,能够在手柄上的 LED 灯被遮挡时,也即在极少 IR 或没有 IR 的情况下,通过追踪裸手的特征,准确还原出手柄控制器的 6DoF 信息,从而保持对手柄的稳定追踪。
图片
Centaur 多模态融合算法,将视觉信息与惯性信息融合,得到手柄位姿及速度的最优估计。具体说,多模态追踪算法使用从头显摄像头、内置 IMU 模块、3-DOF 模块、深度学习手势检测及追踪模块、光学定位模块采集到的多种模态数据,分析手部特征、手柄运动信息、LED 位置,以及全局上下文信息,进行精准的位姿预测和估计。最后,通过多帧融合滤波器对所有获取的信息进行融合计算,产生高精度、高帧率的手柄位置、旋转及速度信息,供上层应用使用。

光学追踪算法在 XR 产品中有着广泛的应用,主要用于实现精准、低延迟的位置和运动追踪。这些算法通常利用摄像头(或其他光学传感器)捕获的图像数据,通过识别和追踪特定的视觉特征,如颜色、纹理、形状等,来计算物体(如用户的头部、手部或控制器)的位置和运动。

PICO 采用的是基于红外光(IR)的主动式光学定位追踪方案,这种技术可以通过头显摄像头,观测到手柄上发射的 IR,并通过光斑检测和多视图几何原理来计算手柄的位置和姿态。与传统的电磁定位和超声波定位相比,具有高精度、低成本、低功耗等优点。

针对小型化手柄的一系列工程和技术挑战,PICO 组建了一个跨部门的攻关小组,包括交互感知内部的数据交互团队、裸手追踪算法团队和手柄追踪算法团队。

经过多次论证后,团队设计了一套基于神经网络的多模态手柄追踪框架,其核心技术即上文提到的 Centaur 多模态追踪算法,该框架融合了 IMU、光学传感器和手部图像这几种不同模态的信息,在手柄被遮挡的情况下,裸手追踪能够提供更加精准的观测,同时手柄给手部追踪提供更准确的预测,两者深度融合,相互辅助。
图片
Centaur 多模态追踪算法,融合了 IMU、光学传感器和手部图像等不同模态的信息,在手柄被遮挡的情况下,裸手追踪可以补充提供精准的观测。

裸手追踪(hand-tracking),也叫手部追踪或手势追踪,通过直接捕获和分析用户的手部姿态、位置和运动,使用户可以在 XR 环境中直接用手势进行交互,无需穿戴特殊设备(如手套或指环),也免去了学习复杂的控制器操作过程,大幅降低了使用门槛,因而在 XR 领域备受关注。

不过,尽管裸手追踪技术能够提供更加流畅、自然的交互体验,但也面临诸多挑战。例如,裸手追踪需要高精度和低延迟,以便能够实时准确地捕捉用户的动作。此外,光照条件、背景干扰、用户的手部形状和颜色差异等因素,也可能影响裸手追踪的表现。

「CV 模态手柄追踪场景下,由于手柄的遮挡,导致裸手视觉特征不明显,常常引发追踪失效。」PICO 裸手算法团队成员表示。

「针对该难点问题,我们创新性地融合了 Down-Top 的端到端 6DoF 追踪算法,通过有效利用多目时序的全局上下文信息,比如身体的骨骼信息以及结合时间顺序判断,一次性准确且稳定地预测手部位姿,能够在手柄追踪失效时,及时提供鲁棒的位姿。」
图片
计算机视觉深度学习领域,Top-Down 和 Down-Top 是对象检测和识别的两种常见策略。Top-Down 通常从全局或更大尺度的视角开始,逐渐向更精细的细节进行;Down-Top 则从小尺度的细节开始,逐渐构建出全局的视图。PICO 团队采用 Down-Top 方案,能够在精度相近的情况下,提高手柄的检出率,从原先的 36% 提升到了 93%。从上图中看,右侧 Down-Top 图中连贯的绿线即表示系统有在持续稳定地追踪。

裸手追踪算法团队设计的这个端到端 6DoF 追踪算法,融合了 PICO 研发团队在过去一年多的时间里取得的多项技术突破:

  • 手部多视角协同自监督学习方法 HaMuCo:利用多视角的信息,通过自监督学习和一致性损失函数,能够在没有大规模 3D 标注数据集的情况下,获得优秀的手部姿态预测结果。这项工作也获得了 ECCV HANDS22 Challenge 第一名。

  • 手部姿态预测和图像对齐框架 DIR:DIR 是「解耦合迭代修正框架」(Decoupled Iterative Refinement)的缩写,该框架解决了二维视觉特征空间和三维节点特征空间的耦合问题,DIR 在二维视觉特征空间中处理图像信息,在三维节点特征空间中处理手部姿态信息。DIR 使用节点特征作为二维和三维空间之间的「桥梁」,使得这两个空间可以相互沟通,从而实现特征增强和姿态修正。在最具挑战性的双手数据集上取得了 SOTA 精度,在处理复杂数据集和泛化到新情况方面也表现出色。该工作入选 ICCV2023 Oral 论文,足以证明其质量。
图片
                              图片来自 DIR 论文:https://arxiv.org/abs/2302.02410

  • 从单视图中重建双手姿态的新方案:由于单视角固有的歧义性以及双手具有相似的外观、自遮挡严重等问题,从单视图中重建双手是一项巨大的挑战,团队转变思路,首先构建了一个双手互动的先验,然后将互动重建任务定义为从这个先验中进行条件采样的任务。具体说,团队通过运动捕捉(MoCap)系统构建了一个大规模的双手交互数据集,然后利用这些数据建立了一个基于 VAE 的双手交互先验网络,再利用 ViT 从单视角图像中提取特征,并充分融合双手交互先验的相关性,从而获得了双手重建的 SOTA 结果。

  • XR 场景全身姿态估计技术:提出了一个能够建模全身关节点相关性的两阶段框架,基于 XR 场景下能够获取的有限的跟踪信息(包括关节点位置特征、关节点旋转特征以及输入特征),回归出准确、平滑和合理的全身姿态序列。模型在虚拟数据集(AMASS)和实采数据集上的实验中,展现出了优于现有方法的准确率、平滑性和物理合理性,极大地提高了用户的沉浸式体验。

「这是团队协作的成果,」PICO 攻关小组负责人表示:

「数据交互团队基于高精度动作捕捉系统完成了数据采集和标注;裸手追踪算法团队设计了 SOTA 的端到端 6DoF 位姿估计模型,提升了手部追踪的稳定性;手柄追踪算法团队则提升了光学追踪的稳定性和整个算法框架的实现,多模态的手柄追踪算法在手柄被遮挡情况下仍然能保持稳定追踪。」

「光学追踪和裸手追踪这两大类算法,从追踪框架上不是独特唯一,也不是我们最先研究的,但是将它们融合起来并产品化,截至目前我们是第一家。」


从研究到产品:新一代无灯环小手柄

PICO 最新推出的小手柄,采用无灯环设计,配合头显进行双手空间定位捕捉,通过头显的 inside-out 光学追踪定位原理,计算出手柄的空间运动轨迹,并结合 6 轴传感器完成无线控制器的 6DoF 捕捉,进而结合控制器的物理按键、马达反馈、摇杆等反映到虚拟现实世界中,用于增强虚拟现实人机交互的能力,提升沉浸感。图片
PICO 最新一代无灯环小手柄。新手柄 LED 灯减少且均在手柄内,更容易被手部遮挡,因此对手柄追踪的鲁棒性带来重大挑战。

相比上一代手柄,无灯环小手柄更加轻巧便携,重心偏手心位置(电池和马达更集中),握持手感更好;双手柄的相互干涉概率更小,整体交互会更自然。重量相比上一代手柄轻约 15g,高度减少 50%。

追踪效果方面,采用自研 Centaur 多模态追踪算法方案,有效解决了双手遮挡情况下的手柄追踪精度问题,毫米级追踪精度,延迟<5ms。

能耗方面,根据 PICO 内部测试的结果,在每天运动 1 小时的情况下,可以持续工作超过 80 天。

实际上,在 PICO 4 早期的研发阶段,团队就有过制作无灯环小型手柄的想法。2022 年 6 月,小手柄研发项目正式启动后,团队探索过多种追踪方案,包括自追踪和其他传感器的追踪方案,考虑到精度及成本等因素,最终决定以光学追踪为基础,结合裸手追踪的最新技术,探索出了一条多模态的追踪方案。

「以高精度光学位姿解算和裸手追踪为基础,实时估算手柄和手掌的相对位置关系。在光学解算失效的情况下,使用裸手检测的结果还原出手柄控制器的 6DoF 信息。」PICO 裸手追踪算法团队成员表示。

「这样我们的手柄控制器追踪系统不仅能够使用红外 LED 做到高精度的追踪,也能够利用裸手检测“隔山打牛”,最终实现了抓握圆盘的握持方式下依然稳定的追踪效果,通过了极客玩家的挑剔测试。」

图片

小手柄会面临更多低 LED 观测数量下的初始化与追踪问题,从数学上解算难度更大。上图为仅有 3 颗 LED 灯时手柄静止状态下的追踪效果,可以看出,多帧紧耦合比单帧松耦合的结果更加精确,追踪更加稳定,波动显著减小。

手柄交互+裸手交互,双线布局应对未来

PICO 的光学追踪和裸手追踪两大类算法,经历了 PICO Neo3 和 PICO 4 两代产品的打磨,对用户需求更了解,技术广度和深度有足够的积累。

作为最早将光学追踪产品化的 XR 企业之一,PICO 的光学追踪系统在许多技术点上表现出优势,精度和性能等指标目前处于全球第一梯队。PICO 的裸手追踪技术则在这两年间快速积累,已经可以实现相当精确和稳定的手部和指尖追踪。

「在高难度的快速运动场景下,我们通过不断优化端到端的时序模型、千万级高精训练集,以及 MTP(Motion to Photon,动显延迟)测试方案,目前算法延迟与追踪丢失率在全球范围能做到技术领先,给用户在游戏与运动场景带来了流畅且稳定的体验。」

如今,数据驱动的 AI 正以前所未有的方式塑造着未来,尤其在 XR 领域,由于硬件和算法持续快速迭代,数据的效率、质量和可扩展性对于开发交互式 AI 算法至关重要。

PICO 拥有行业领先的全方位自研软硬件基建,覆盖数据生产平台(含相机阵列与仿真系统)和测试平台等,特别关注高效数据获取、高精度数据标注和数据应用相关的工作,也为技术和产品的研发奠定了坚实的基础。

「为了生产高精数据,我们在小手柄裸手姿态数据的高精标注任务中,一方面采用了自研的业内领先的基于相机阵列的多视角手部姿态标注技术方案;另一方面针对该特定任务进行了预重建,进一步提升了手部姿态数据的精度。」PICO 数据交互团队表示。
图片PICO 高精度数据采集与自动标注流程:①采集前,结构光扫描及注册;②阶段一,采集手和手柄空间关系;③阶段二,手柄跟踪及手势标签
图片
                            AI 合成方案,通过仿真手部模型扩大数据采集样本

「我们在数据生产上也提供了多套技术方案,如相机阵列的真实采集与仿真合成平台方案,多种方案结合,有力保障 AI 训练数据的支撑。」

结语

当前,XR 领域技术快速更迭,PICO 在光学追踪和裸手追踪两条技术路线上双线布局,表明了其对技术趋势的前瞻洞察力。

「裸手+手柄」的融合式交互方案,结合了裸手追踪的直观性和手柄输入的精确性,既能提供自然、直观的体验,又能实现精确、细致的操作,对游戏、教育、医疗、设计等领域具有强大吸引力,有望成为未来 2~3 年行业的主流交互趋势。

作为国内最早参与 XR 领域的企业之一,PICO 凭借前瞻性的技术意识和充分的技术积累,确立了其在行业中的领先地位。此次自研 Centaur 多模态追踪算法,申请专利并成功产品化,再加上全方位自研的软硬件基础设施,这些都是技术优势的体现,也是 PICO 能持续领跑行业的关键。

在科技产业,寻找创新与保持一致性之间的平衡是挑战也是艺术。一方面,创新性和差异性是推动行业向前发展的引擎,为用户带来更高效、更具吸引力的体验。另一方面,一致性对于确保平稳过渡和降低过渡成本至关重要。

PICO 的融合式交互方案巧妙地展现出了这样的一致与创新。正如混合动力汽车为消费者和制造商提供了平滑过渡到全电动汽车的途径。同样,手柄+裸手的融合式交互技术也提供了一条路径,使 XR 行业可以更加平顺地迈向下一阶段。人机交互的设计应当始终以用户为中心,包括那些有特殊需求或身体限制的人。让我们期待 PICO 的这份执著和专注,继续为玩家带来更多超越想象的惊喜。

参考资料
  • 高效数据获取 HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning,https://arxiv.org/abs/2302.00988
  • 高精度数据标注 Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image,Reconstructing Interacting Hands with Interaction Prior from Monocular Images,https://arxiv.org/abs/2302.02410
  • 单视图中重建双手 Reconstructing Interacting Hands with Interaction Prior from Monocular Images,https://arxiv.org/abs/2308.14082
  • 数据应用 Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling,https://arxiv.org/abs/2308.08855
工程PicoApple Vision Pro
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

结构光技术

结构光是将已知图案(通常是栅格或水平条)投射到场景上的过程。这些物体在撞击表面时变形的信息来在视觉系统中计算场景中物体的深度和表面信息,如在结构光3D扫描器中使用的。 结构光是一组由投影仪和摄像头组成的系统结构。用投影仪投射特定的光信息到物体表面后及背景后,由摄像头采集。根据物体造成的光信号的变化来计算物体的位置和深度等信息,进而复原整个三维空间。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~