Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

让机器准确「看懂」手物交互动作,清华大学等提出GeneOH Diffusion方法

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

机器学习计算机视觉中,让机器准确地识别和理解手和物体之间的交互动作,那是相当费劲。

要么拿个杯子半天抓不到杯把:
图片
要么打开一个盒子手部跟触电了似的:
图片
抑或是各种稀奇古怪的手部「畸变」:
图片
这都是因为手物交互动作中噪声干扰,比如手和物体的遮挡等,导致机器难以获得准确的信息。那么,如何解决这些「讨厌」的噪声呢?

近日,清华大学、上海人工智能实验室和上海期智研究院发布了一篇名为《 GeneOH Diffusion:Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion》的论文,提出了一种新的去噪方法 ——GeneOH Diffusion。该研究已被ICLR 2024接收。
图片
  • 论文:
    https://arxiv.org/abs/2402.14810
  • 代码地址:
    https://github.com/Meowuu7/GeneOH-Diffusion
  • 项目网站:
    https://meowuu7.github.io/GeneOH-Diffusion/
  • YouTube 视频:
    https://youtu.be/ySwkFPJVhHY
  • Hugging Face Demo:
    https://huggingface.co/spaces/xymeow7/gene-hoi-denoising

GeneOH Diffusion 主要用于改善手和物体交互(Hand-Object Interaction, HOI)过程中的噪声问题。简单来说,就是当机器或者计算机视觉系统尝试追踪和理解手和物体之间的交互时,经常会因为各种原因(比如遮挡、光线变化等)出现误差。这篇论文提出的技术就是用来减少这些误差,使得机器能够更准确地理解和模拟手与物体之间的交互。
图片
研究动机

干净的手物交互数据在很多下游任务,如 AR、VR 和 Robotics 中都有广阔的应用前景,但如何以一种可扩展的方式获取自然真实的手物交互数据是一个极具挑战性的问题。研究者无论是采用数据采集的策略,设计算法从其他数据模态中获得手物交互序列,还是借助生成模型的强大生成能力,所得到的数据都不可避免地被各种各样无法预测的噪声干扰(图 1)。这些噪声可能来源于采集设备有限的精度或者相关算法的误差。

一种能够从含有噪声的数据中恢复出清晰、真实手物交互序列的方法,构成了连接低成本手物交互数据源和高质、实用数据之间的桥梁。正是在这一过程中,手物交互去噪模型的独特价值和重要性得以凸显。
图片
                                        图 1:手物交互序列中多样且复杂的噪声类型

从含有噪声的交互序列中恢复出真实的数据,这是一个本质上困难的重构问题。在实际的去噪应用场景中,由于输入数据的物体、交互动作和噪声特征都具有不可预测性,同时去噪模型的训练数据又受到限制,因此模型的泛化能力变得尤为关键,同时也是设计去噪模型时最具挑战性的地方。

尽管交互序列去噪问题并非一个全新的研究领域,但在以往的工作中,无论是采用基于规则的方法还是数据驱动的方法,「如何在训练数据有限的情况下,构建一个具有高度泛化能力的模型」这一问题并未得到充分的重视和深入研究。而正是在这样的背景下,GeneOH Diffusion(如图 2 所示)旨在探索和实现可泛化的手物交互去噪技术。
图片
图 2:通过在有限的数据上进行训练,GeneOH Diffusion 可以很好地泛化到新颖的带有复杂噪声特征的交互序列上(图 a),并可以从一段输入中恢复出多样且自然的交互序列(图 b),且是一个实用的工具(图 c)。

GeneOH Diffusion:可泛化的手物交互序列去噪方法

GeneOH Diffusion 重新思考了设计数据驱动的去噪模型的两个关键问题 ——「什么是易于泛化的手物交互序列表示方法」和 「什么是对噪声特征不敏感,且易于在不同类型噪声数据上泛化的去噪方法」,并通过两个关键性的设计来增强去噪模型的泛化性。

首先,为了有效增加模型对新颖物体和手物交互动作的可泛化性,GeneOH Diffusion 通过在局部接触区域参数化交互信息,来对齐各种各样的手物交互序列。

具体来讲,GeneOH Diffusion 设计了一套以广义接触点为中心的、包含手物时空交互信息的序列表征,名为 GeneOH。GeneOH 包括 位姿标准化后的手物轨迹、以广义接触点为中心的手物空间关系表征、以及以广义接触点为中心的手物时间关系表征。(图 3)
图片
                                     图 3:可泛化的手物交互序列表征 GeneOH

为了增加去噪模型泛化到新噪声分布上的能力,GeneOH Diffusion 摒弃了前人确定性映射的去噪方法,提出使用扩散模型刻画手物交互信息的分布,并通过先扩散 — 后去噪的方式,极大地提高了模型对具有没见过的复杂噪声特征的数据的泛化能力。

具体而言,GeneOH Diffusion 先将输入的有噪声的数据通过前向扩散的方式对齐到一个统一的噪声空间,之后对扩散的数据进行去噪。最后,为了去除复杂多样的手物交互序列中的噪声,GeneOH Diffusion 设计了一种有效的层级式去噪方法,通过对不自然的手型、有噪声的手物空间关系和有噪声的手物时间关系进行逐步去噪,最终恢复出一段自然真实的手物交互序列(图 4)。
图片
                               图 4:层级式去噪和易于在不同噪声类型之间泛化的先扩散 - 后去噪的去噪范式

可泛化去噪结果展示

GeneOH Diffusion 仅在有限的 GRAB 数据集上进行训练,尽管它只接触过有限的交互序列和简单的扩散模型中的高斯噪声,但它仍然能够有效地泛化到新的交互序列上。这些新序列不仅包含了未见过的物体,还涵盖了创新的交互动作,并且带有复杂的、真实世界中的噪声特征(见图 5)
图片
                                  图 5:在 GRAB,GRAB(Beta),HOI4D 和 ARCTIC 上的去噪结果部分展示

最令人惊讶的是,GeneOH Diffusion 仅仅在包含刚性物体交互数据上进行了训练,但它依然能够近乎完美地复原出一段自然真实的人打开剪刀的序列(见图 6)。即便输入数据未能提供有效的接触信息,并且包含了由视觉算法错误导致的异常噪声,经过 GeneOH Diffusion 去噪处理后的序列仍然展现出了合理的接触点、自然的手部运动轨迹,以及手物运动一致的操控动作。
图片
                                   图 6:泛化到非常困难的、具有复杂的真实的噪声特征序列上的动画示例

基于生成模型,GeneOH Diffusion 具备随机去噪的能力,这与去噪过程中所面临的一对多的问题特质相吻合(见图 7)。
图片
                                    图 7:随机去噪结果展示

同时 GeneOH Diffusion 具有广阔的应用价值。它可以修正从视频中预测的手物交互序列,去除运动重定向所产生的噪声,并可以提高生成模型所生成的数据的质量(图 8)。
图片
                                 图 8:应用场景
工程ICLR 2024GeneOH Diffusion
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~