Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

肖云鹏作者学术菠菜 排版学术青 会会 校对学术青 优学术责编

图灵奖得主Geoffrey Hinton最新研究NASA:一种更好地学习三维模型动作的方法

NASA: Neural Articulated Shape Approximation

论文作者:

Timothy Jeruzalski, Boyang Deng, Mohammad Norouzi, JP Lewis, Geoffrey Hinton, Andrea Tagliasacchi(Google Research)

论文链接:

https://static.aminer.cn/misc/pdf/1912.03207.pdf

前言

本文对《NASA: Neural Articulated Shape Approximation》进行解读,这篇文章提出了利用神经网络对有关节、可变形的三维模型进行估计的方法,与传统方法相比,NASA具有复杂度低、模型水密性好、分辨率高、模型估计效果好等优势

简介

随着深度学习计算机视觉以及图形学领域起到了越来越重要的作用,越来越多的方法基于神经网路模型建立了对三维几何模型的表达。然而,这些工作主要基于普通的不可变形的三维模型,对具有关节结构的可变形的三维模型的研究依然很少。但由于具有关节结构的三维模型包含了人体模型,广泛应用于游戏、电影、虚拟现实以及增强现实等领域,因此对于这类模型的研究便十分重要。

在本文中,作者提出了一种新的方法用于训练解码器D来估计有关节的三维模型,解码器生成的三维模型通过指示函数(indicator function)来表示,这一指示函数以三维模型的姿态作为参数,输入为三维空间中的点x,当该点位于三维模型内时,输出为1;位于三维模型外时,输出为0。与其他方法不同的是,NASA专注于通过姿态参数来估计三维模型的指示函数,这些姿态参数描述了三维模型是如何变形的。

这篇论文的贡献在于:

  1. 提出了一种通过神经网络估计有关节可变形的三维模型的方法;

  2. 通过明确地在网络中表示模型的变形结构,利用更少的模型参数实现了与之前方法相比相似的性能和更好的泛化能力;

  3. 指示函数这一表示方式支持交集和碰撞查询,无需再将其转换为其他的三维模型表示方式;

  4. 模型结果与之前的方法相比能够更好地学习三维人体模型的动作。

图1:NASA模型生成效果(来源【7】)

相关工作

对于有关节的三维模型的变形,传统上采用蒙皮算法(Skinning algorithms),将三角网格曲面上的顶点的变化与三维模型骨架的变化结合起来,其中LBS(Linear Blend Skinning)算法【1】将变换后的顶点表示为与该顶点相关联的骨架对该点的影响的权重和,但LBS算法也存在“collapsing elbow”以及“candy wrapper”的问题【2】。对于三维模型的表示,研究者们提出了一系列基于深度学习的方法对三维模型分块进行表示【3】【4】。对于指示函数这一基于隐式场的三维模型表示方式,也存在很多相关的工作【5】,但这些工作并没有考虑变形的因素。

NASA模型介绍

1.非结构化模型(Unstructured model – “U”)

2.分片刚体模型(Piecewise rigid model – “R”)

3.分片可变形模型(Piecewise deformable model – “D”)

4.实现细节

实验结果

模型效果在2D以及3D数据集上分别进行了测试,模型的表现通过预测结果与ground-truth之间的交并比来评测。

1.二维数据

二维数据集包含了100组动作,在这一数据集几何形状的生成通过两种方式:①对于刚性数据集,包含了一组形状的集合,每个形状对应了模型的每个骨架,在整个模型的姿态发生变化的过程中,每个单独的形状不会发生变化。②对于混合数据集,则通过LBS算法得到变形的形状。对二维数据集的实验结果如下图所示:

图3:二维数据估计效果(来源:【7】)

图4:分片刚体模型R估计效果(来源:【7】)

图5:分片可变形模型D估计效果(来源:【7】)

可以看到,对于训练集,三种方法都拟合出了较为不错的效果,对于结构化的两种方法,由于“D”并没有限制每一个part不能改变形状,因此“D”相较于“R”在LBS数据集上具有更好的效果。但是,“U”与“D”都有过拟合的现象产生,只有“R”在测试集上依然表现出了不错的效果。

图6:在测试集上的效果(来源:【7】)

2.三维数据

对于三维模型的测试在AMASS数据集【6】上实现,实验结果如下所示,与二维数据的结果类似:

图7:在三维数据集上的效果(来源:【7】)

总结

本文提出了一种新的思路,利用深度学习的方法,通过模型的姿态参数来估计有关节可变形的三维模型,并比较了结构化模型(R, D)相较于非结构化模型(U)具有更高的效率以及更好的泛化能力。这一方法的提出对表示复杂的有关节模型例如人体具有重要意义。

未来方向:

  1. “R”相较于“D”在实验中展示出了更好的泛化能力,但“D”在一些场景下依然具有较高的利用价值,是否可以将这两种模型进行结合;

  2. 对于可变形模型来说,是否可以学习到模型的

  3. 是否可以用符号距离函数来代替当前的指示函数;

  4. NASA是否可用于differentiable rendering;

  5. 可变形的三维模型的运动的表示方式是否可以只通过二维信息来获取。

参考文献:

【1】Alec Jacobson, Zhigang Deng, Ladislav Kavan, and J.P.Lewis. Skinning: Real-time shape deformation. In ACMSIGGRAPH Courses, 2014.

【2】J. P. Lewis, Matt Cordner, and Nickson Fong. Pose spacedeformation: A unified approach to shape interpolation andskeleton-driven deformation. In Proceedings of the 27thAnnual Conference on Computer Graphics and InteractiveTechniques, SIGGRAPH ’00, pages 165–172, New York,NY, USA, 2000. ACM Press/Addison-Wesley PublishingCo.

【3】Dominik Lorenz, Leonard Bereska, Timo Milbich, andBjÃ˝urn Ommer. Unsupervised part-based disentangling ofobject shape and appearance. arXiv:1903.06946, 2019.

【4】Lin Gao, Jie Yang, Tong Wu, Yu-Jie Yuan, Hongbo Fu, YuKun Lai, and Hao Zhang. Sdm-net: deep generative networkfor structured deformable mesh. ACM TOG, 2019.

【5】Jeong Joon Park, Peter Florence, Julian Straub, RichardNewcombe, and Steven Lovegrove. DeepSDF: Learningcontinuous signed distance functions for shape representation. CVPR, 2019.

【6】Naureen Mahmood, Nima Ghorbani, Nikolaus F Troje, Gerard Pons-Moll, and Michael J Black. Amass: Archive ofmotion capture as surface shapes. ICCV, 2019.

【7】Jeruzalski, T., Deng, B., Norouzi, M., Lewis, J. P., Hinton, G., & Tagliasacchi, A. (2019). NASA: Neural Articulated Shape Approximation. arXiv preprint arXiv:1912.03207.

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论Geoffrey HintonNASA三维模型
5
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

Julia技术

Julia 是MIT设计的一个面向科学计算的高性能动态高级程序设计语言,项目大约于2009年中开始,2018年8月JuliaCon2018 发布会上发布Julia 1.0。据介绍,Julia 目前下载量已经达到了 200 万次,且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外,Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库,这极大地扩展了 Julia 语言的使用范围。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

分块技术

将标注好词性的句子按句法结构把某些词聚合在一起形成比如主语、谓语、宾语等等。

推荐文章
暂无评论
暂无评论~