Daniel Cudeiro等作者Haven Fung编译

CVPR 2019 | 德国马普所提出语音驱动的逼真3D人脸动画框架,可用于不同个体

计算机视觉领域顶级会议 CVPR 将于 6 月 16 日-20 日在美国加州长滩举行。CVPR 2019 共收到 5165 篇有效提交论文,相比去年增加了 56%;接收论文 1300 篇,接收率接近 25.2%。

据机器之心了解,德国马克思·普朗克研究所智能系统所共有 14 篇论文入选 CVPR 2019,本文简要介绍了其中关于 3D 人脸动画的研究。该研究提出一种简单通用的语音驱动人脸动画框架 VOCA。

本文介绍了 VOCA(Voice Operated Character Animation),这是一种简单且通用的语音驱动面部动画框架,可适用于不同个体。VOCA 可以将任何语音信号和静态三维头部网格作为输入,并输出逼真的面部动画。VOCA 利用了语音处理和 3D 人脸建模的最新成果以泛化到新的对象上。同时 VOCA 还为动画师提供了控制的可能,以在制作动画期间改变说话风格、依赖于个体身份的面部形状以及姿势(即头部、下颌和眼球转动)。VOCA 在多主题 4D 面部数据集(VOCASET)上进行训练。数据集、训练模型和代码均公开可用。

地址:http://voca.is.tue.mpg.de

音频驱动的 3D 面部动画已被研究者广泛探索,但仍然难以实现逼真的、类人的表现。这是由于缺乏可用的 3D 数据集、模型和标准评估指标。为了解决这个问题,我们推出了一个独特的 4D 人脸数据集,其中包括以 60 fps 捕获的约 29 分钟 4D 扫描和 12 个说话者的同步音频。然后我们在这个数据集上训练神经网络,它可以将面部运动与个体(identity)分离开来。VOCA 作为学习模型,可以将任何语音信号作为输入,甚至是除英语之外语言的语音,并且可以逼真地动画化大量不同的成人面孔。基于多个人物标签训练使得模型可以学习多种逼真的说话风格。VOCA 还提供动画控制,从而在制作期间改变说话风格、依赖于个体身份的面部形状和姿势(即头部、下颌和眼球转动)。据我们所知,VOCA 是唯一一个可轻松应用于未见过对象而无需重新定位的逼真 3D 面部动画模型。这使得 VOCA 非常适用于游戏内视频、虚拟现实头像,或任何预先不知道讲者、语音或语言的情况。我们的数据集和模型开放并可用于研究目的。

VOCA 框架

VOCA 展示了如何组合不同的构建块,以获得简单通用的语音驱动面部动画框架。

VOCA 网络架构。

1)使用 DeepSpeech, 一个预训练的语音到文本模型。由于其庞大的训练语料库(数百小时的演讲),将它作为音频特征提取器可提供对于不同音频源的鲁棒性。

2)对说话者风格的调节使得能够跨受试者进行训练(即如果没有调节,跨对象的回归训练会获得非常平均化的面部运动),并在测试时间内合成说话人风格的组合。

3)从面部运动中分解个体身份使我们能够为各种各样的成人面孔制作动画。

4)使用样本网格拓扑作为公共可用的 FLAME 全头模型,允许我们从三维扫描或图像重建获取特定对象的 3D 头模板。FLAME 的网格拓扑使我们能够在动画期间进一步编辑依赖于个体身份的面形状和头部姿势。

VOCA 特点:

1)简单而通用的语音驱动的面部动画框架,适用于不同对象;

2)对各种语音源、语言和 3D 面部模板具有良好的泛化能力;

3)提供动画控制参数以在制作动画期间改变说话风格、依赖于个体身份的形状和头部姿势;

4)训练数据集、训练模型和代码可用于研究目的。

局限与未来方向

虽然 VOCA 可以用来逼真地演绎各种各样的成人面孔,但它仍然缺乏对话真实感所需的一些细节。上半张脸的运动(即眼睛和眉毛)与音频没有很强的相关性。这其中的因果要素是情绪,由于在受控环境中模拟带有情绪的语音非常困难,我们的数据中没有这一要素。因此,当 VOCA 从演讲中学习因果面部运动时,主要聚焦于下半张脸。

非语言性的交流线索,例如头部运动,与音频信号存在弱相关,因此不能通过音频驱动技术很好地建模。VOCA 为动画师和开发人员提供了包括头部运动的可能性,但并未从数据中推断出它。头部运动的语音独立模型可用于模拟实际结果。应用特定技术,例如动画助手和人之间的二元相互作用,需要考虑空间特征的注意机制,例如眼部追踪。

通过增加情绪来增加真实感,以及诸如头部运动和眼睛凝视之类的非语言性提示是未来的研究方向。

VOCA 旨在通过音频制作动画面孔。未来的研究方向是用富有表现力的肢体学习更丰富的对话模型,即不仅要考虑面部,还要考虑肢体语言的建模。


论文 :Capture, Learning, and Synthesis of 3D Speaking Styles

理论动画计算机视觉CVPRCVPR 2019
1
相关数据
Anurag Ranjan人物

马克斯普朗克智能系统研究所博士。研究领域:感知系统。

图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

语音处理技术

语音处理(Speech processing),又称语音信号处理、人声处理,其目的是希望做出想要的信号,进一步做语音辨识,应用到手机界面甚至一般生活中,使人与电脑能进行沟通。

推荐文章
暂无评论
暂无评论~