研究人员从视频学习面部建模
基于单目图像的面部三维重建是计算机视觉中长期存在的问题。由于图像数据是 3D 面部的 2D 投影,因此产生的深度模糊性使问题变得不适定。大多数现有方法依赖于由有限的 3D 面部扫描构建的数据驱动的先验。近日,研究人员发布论文《FML: Face Model Learning from Videos》,提出了一种深度网络的基于视频的多帧自监督训练,在形状和外观上学习面部身份模型,同时联合学习重建 3D 面部。研究人员只使用从互联网收集的 in-the-wild 视频片段来学习面部模型。几乎无穷无尽的训练数据源可以学习高度通用的 3D 人脸模型。为了实现这一点,研究人员提出了一种新颖的多帧一致性损失,确保在目标面部的多个帧上保持一致的形状和外观,从而最小化深度模糊。在测试时,研究人员使用任意数量的帧,这样就可以执行单目和多帧重建。