Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

逼真3D人脸动画等,德国马普所三篇CVPR 2019论文推荐

计算机视觉领域顶级会议 CVPR 2019 已于近日在美国加州长滩落幕。CVPR 2019 共收到 5165 篇有效提交论文,相比去年增加了 56%;接收论文 1300 篇,接收率接近 25.2%。

据机器之心了解,德国马克思·普朗克研究所马普智能系统所共有 14 篇论文入选 CVPR 2019,本文简要介绍了其中三篇。

论文 1:Capture, Learning, and Synthesis of 3D Speaking Styles

  • 作者:Daniel Cudeiro、Timo Bolkart、Cassidy Laidlaw、Anurag Ranjan、Michael J. Black

  • 论文链接:https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/510/paper_final.pdf

  • 项目页面:https://voca.is.tue.mpg.de/ 

  • GitHub 页面:https://github.com/TimoBolkart/voca 

摘要:音频驱动的 3D 人脸动画已经得到了广泛探索,但该领域仍未达到逼真、类似人类的效果。其原因在于缺乏可用的 3D 数据集、模型和标准评估度量指标。为此,我们创建了一个独特的 4D 人脸数据集 VOCASET,它包括以 60 fps 的帧速率捕捉到的 4D 扫描(共 29 分钟),以及来自 12 名说话者的同期声。然后我们在该数据集上训练一个神经网络,它可以将人物和人脸运动分离开来。学到的模型 VOCA (Voice Operated Character Animation) 可使用任意语音信号作为输入(即使不是英语也可以),然后将大量成人面部转化为逼真的动图。

基于多个人物标签训练使得模型可以学习多种逼真的说话风格。在动图化的过程中,VOCA 还提供动图控制器来改变说话风格、依赖于人物的人脸形状和姿势(即头、下巴和眼球转动)。据我们所知,VOCA 是目前唯一无需重定位即可应用于未见人物的 3D 人脸动图模型。这使得 VOCA 适合比赛录像、VR 头像,或者任何无法提前知道说话者、语音和语言的场景。出于研究目的,我们公开了该数据集和模型,参见:http://voca.is.tue.mpg.de。(http://voca.is.tue.mpg.de./)

VOCA 是一个简单通用的语音驱动人脸动画框架,适用于大量不同人物。给定任意语音信号和静态 3D 人脸网格输入(左),VOCA 模型输出逼真的 3D 人物动图(右)。

VOCA 模型架构

VOCA 用人物特定的模板 T 和原始音频信号作为输入,研究者利用 DeepSpeech [29] 从中提取特征。期望输出是目标 3D 网格。VOCA 是一个编码器-解码器网络,编码器学习将音频特征转换为低维嵌入,解码器将低维嵌入映射到 3D 顶点位移的高维空间。

VOCA 网络架构。

模型架构。

实验

论文 2:Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

  • 作者:Soubhik Sanyal、Timo Bolkart、Haiwen Feng、Michael J. Black

  • 论文链接:https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/509/paper_camera_ready.pdf

  • 项目页面:https://ringnet.is.tue.mpg.de/

  • GitHub 页面:https://github.com/soubhiksanyal/RingNet

摘要:基于单个图像的 3D 人脸形状估计必须对光线、头部姿势、表情、胡须、妆容和遮挡等的变化具备稳健性。稳健性则需要大量野外图像作为训练数据,而它们缺少真值 3D 形状。为了在没有 2D-to-3D 监督的情况下训练网络,我们提出了 RingNet,它可以基于单个图像学习计算 3D 人脸形状。

我们的重要观察是,一个人在不同图像中不管表情、姿势、光线如何,人脸形状都是不变的。RingNet 利用一个人的多张图像自动检测 2D 人脸特征。它使用了一个新型损失函数,当图像中的人物相同时,人脸形状是类似的,当人物不同时,人脸形状是不同的。我们使用 FLAME 模型表示人脸,从而对表情保持不变性。

训练完成后,我们的方法可以基于单个图像输出 FLAME 参数,然后进行动图化。此外,该研究者还创建了一个新的人脸数据库「not quite in-the-wild」(NoW)。我们评估了目前已有的公开方法,发现 RingNet 的准确率高于那些使用 3D 监督的方法。目前,该研究所用数据集、模型和结果均已开源:https://ringnet.is.tue.mpg.de/。

在没有 3D 监督的情况下,RingNet 学习从单个图像像素到 FLAME 模型 3D 人脸参数映射。第一行:来自 CelebA 数据集 [22] 的图像。第二行:估计到的形状、姿势和表情。

NoW 数据集示例。

方法

该研究提出的 RingNet 架构如下图所示:

RingNet 在训练过程中使用人物 A 的多张图像和人物 B 的一张图像作为输入,然后识别出相同人物图像之间的形状一致性和不同人物图像之间的形状不一致性。

如上图所示,RingNet 被分割成 R 个 ring 元素 e^i=R_i=1,其中 e_i 包括一个编码器和一个解码器,如下图所示:

实验

研究者对 RingNet 进行了定量和定性评估,并与已有的公开方法(PRNet (ECCV 2018 [9])、Extreme3D (CVPR 2018 [35])、3DMM-CNN (CVPR 2017 [34]))进行了对比

论文 3:Local Temporal Bilinear Pooling for Fine-grained Action Parsing

  • 作者:Yan Zhang、Siyu Tang、Krikamol Muandet、Christian Jarvers、Heiko Neumann

  • 论文链接:https://arxiv.org/abs/1812.01922

  • 项目页面:https://ps.is.tuebingen.mpg.de/publications/bilinear2018

摘要:细粒度时序动作解析在很多应用中都很重要,比如日常活动理解、人类动作分析、手术机器人等需要在较长时间段内具备精密准确操作的应用。这篇论文提出了一种新型双线性池化操作,它被用作时序卷积编码器-解码器网络的中间层。与其他研究不同,该双线性池化操作是可学习的,因此它能够比传统的操作捕捉到更多复杂的局部统计数据。

此外,我们还引入了该双线性池化操作的确切低维表征,使得维度不会因为信息损失或过量计算而降低。我们执行了大量实验,对该模型进行了量化分析,结果表明该模型在多个数据集上展现出优于其他 SOTA 池化方法的性能。

实验

实验所用数据集示例。


理论德国马普智能系统所CVPR 2019计算机视觉
1
相关数据
Anurag Ranjan人物

马克斯普朗克智能系统研究所博士。研究领域:感知系统。

池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

推荐文章
暂无评论
暂无评论~