Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

北京大学前沿计算研究中心转载自

用图网络帮机器人「拼家具」,北大、斯坦福NeurIPS论文提出基于动态图网络学习的三维部件拼装

在一篇 NeurIPS 2020 论文中,北大、斯坦福大学的研究者提出了一种基于迭代式图神经网络的动态图神经网络学习的框架。在这一框架下,机器人通过对各个部件几何形状的观察和推理去隐式学习各个部件之间的关系,并将这一隐式学到的部件关系应用到部件拼装任务当中,甚至达到了比使用给定各部件之间真实连接关系更好的效果。本文是对这篇论文的解读。


引言

三维形状的部件拼装,是计算机视觉、图形学领域的基本问题。如图1所示,三维部件拼装在数学上可以形式化为对于各个输入部件的位姿估计(pose estimation)问题,即给定各个部件在各自规范空间(canonical space)中的布局,目标是组成一个完整的形状。三维部件拼装有着很广泛的应用,比如从家具城买回来一堆家具的部件,或者工厂当中有一堆杂乱摆放的零件,这时候则需要机器人把这些零散的部件组装成完整的、可供使用的整体。

尽管目前已有很多工作利用深度学习方法进行部件拼装,然而这些方法都至少有以下几个局限性之一:1.每个部件的几何形状都可以任意生成,没有限制;2.假设了每个部件初始的时候都是已经旋转好了的;3.假设机器人知道关于整个三维几何形状的先验知识。为了让训练出来的模型能够更好地在真实的场景中完成部件拼装的任务,在我们的任务设定当中,每个部件的几何形状都是给定、不能更改的,机器人不知道关于整体形体的任何先验知识,并且需要预测每个给定输入部件的包括旋转、平移在内的六自由度位姿。

为解决这一新设定下的部件拼装问题,我们提出了一个基于迭代式图神经网络(iterative graph neural network)的动态图神经网络学习(dynamic graph learning)的框架。在这一框架下,机器人通过对各个部件几何形状的观察和推理去隐式学习各个部件之间的关系,并将这一隐式学到的部件关系应用到部件拼装任务当中,甚至达到了比使用给定各部件之间真实连接关系更好的效果。这一框架,为分析机器学习过程中“机器是如何学习的”,提供了启示。
图1. 三维形状的部件拼装任务

方法

给定一个原始的三维点云 ,我们的目标是对每一个输入的部件 去预测一个六自由度的部件位姿 ,用预测的位姿对每一个输入的部件 做变换得到变换后的部件 ,这些变换后的部件则一起构成机器人最终拼装出来的三维几何体 。

我们的架构由迭代式的图神经网络骨架(iterative graph neural network backbone)、动态关系推理模块(dynamic relation reasoning module)和动态部件聚合模块(dynamic part aggregation module)组成,总的框架结构如图2所示。

迭代式的图神经网络骨架:我们在每一轮迭代的时候对图中每一个结点做一次信息传递(message passing)以更新这个结点的潜表达:

其中, 是点 传递给点 的信息。此外,我们还根据当前轮每个结点的潜表达、上一轮对这个结点代表部件的位姿预测、这个结点代表部件初始几何信息去更新这个结点代表部件的位姿预测:

动态关系推理模块:每一轮迭代时,我们根据当前图的各个结点代表部件的位姿去动态更新图中边的权重

并按照当前图中边的权重加权对每一个结点做信息传递以更新这个结点的潜表达:

动态部件聚合模块:偶数轮迭代时,我们把代表每种等价类部件(geometrically-equivalent parts)的结点聚合成一个结点,从而在一个稀疏点集(sparse node set)上进行信息传递;奇数轮迭代的时候,我们又把这些聚合了的结点分开(unpool)成独立的结点,从而在稠密点集(dense node set)上进行信息传递。

以上各个模块具体的实现和训练细节请参见论文。
图2. 我们部件拼装动态图神经网络的框架结构

实验结果

我们的实验是在 PartNet [1] 数据集上进行的。我们和之前一些方法(如 ComplementMe [2], PQ-Net [3] 等)的变体以及我们自己方法的几个变体都进行了对比,展示了定性和定量的结果,证明了我们的方法在部件拼装任务中的优越性。图3展示了定性的对比结果(左),此外,利用 VAE 类似的思想,我们的方法还可以产生多模态的输出(右)。
图3. 不同方法在部件拼装任务上的对比(左)以及我们的方法可以产生多模态的输出(右)

最有意思的是,我们的网络在学习拼装部件的过程中能够隐式地学习到各个部件之间的关系,如图4所示。我们可以观察到,奇数步的时候呈现出相同的模式(pattern),偶数步的时候亦呈现出另一种相同的模式(关于模式的详细分析请参见论文)。总体而言,较为中心的部件(central part)(如back, seat)相比于较为边缘的部件(peripheral part)(如 leg, arm)发出的关系权重更多,而接收的关系权重更少。结合信息传递的过程,我们可以分析得到,中心部件更多地主导了部件拼装的过程。
图4. 动态图网络隐式学习到的各部件之间的关系。橙色表示4个最大的关系权重,黄色表示最小的关系权重。纵列表示发出关系权重的部件,横排表示接收关系权重的部件。

为了进一步佐证这个结论,图5进一步可视化了我们的迭代式图神经网络拼装部件的过程。可以发现,我们的模型在没有任何外界直接监督的情况下隐式地学会了渐进式地(in a coarse-to-fine manner)拼装部件:在开始的几步先拼好中心部件(back和seat),接着边缘部件(arm 和 leg)会根据中心部件的位姿来调整自己的位姿,最终“由粗到细”地完成部件的拼装。

图5. 迭代式图神经网络拼装部件的过程

总结

本文提出了一种更贴近实际的(practical)的部件拼装问题,并设计了一个基于动态图网络学习的可以生成多模态拼装的方法。我们的方法揭示了动态图网络学习在部件拼装任务中的优越性,并为分析“机器是如何学习的”提供了思路。未来可能的研究方向包括考虑融合部件关节信息以及更高阶的部件之间的信息等来达到更好的部件拼装效果。

参考文献

[1] Kaichun Mo, Shilin Zhu, Angel X Chang, Li Yi, Subarna Tripathi, Leonidas J Guibas, and Hao Su. Partnet: A large-scale benchmark for fine-grained and hierarchical part-level 3d object understanding. CVPR, 2019.
[2] Minhyuk Sung, Hao Su, Vladimir G Kim, Siddhartha Chaudhuri, and Leonidas Guibas. Complementme: weakly-supervised component suggestions for 3d modeling. ACM TOG, 36(6):1–12, 2017.
[3] Rundi Wu, Yixin Zhuang, Kai Xu, Hao Zhang, and Baoquan Chen. Pq-net: A generative part seq2seq network for 3d shapes. CVPR, 2020.

理论北大机器人技术图神经网络3D视觉
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

分析机技术

分析机是由英国数学家查尔斯·巴贝奇设计的一种机械式通用计算机。从1837年首次提出这种机器的设计,一直到他去世的1871年,由于种种原因,这种机器并没有被真正的制造出来。但它本身的设计逻辑却十分先进,是大约100年后电子通用计算机的先驱。

图网络技术

2018年6月,由 DeepMind、谷歌大脑、MIT 和爱丁堡大学等公司和机构的 27 位科学家共同提交了论文《Relational inductive biases, deep learning, and graph networks》,该研究提出了一个基于关系归纳偏置的 AI 概念:图网络(Graph Networks)。研究人员称,该方法推广并扩展了各种神经网络方法,并为操作结构化知识和生成结构化行为提供了新的思路。

推荐文章
暂无评论
暂无评论~