从语言描述到生成动作,CMU 新研究自然语言处理保证预示动作
从自然语言句子生成动画可以在许多领域中得以应用,例如电影脚本可视化,虚拟人体动画和机器人运动规划。这些句子可以描述不同类型的动作,速度和方向,并且可能描述目标的目的地。这种语言到姿势应用程序的核心建模挑战是如何将语言概念映射到运动动画。在本文中,我们通过引入称为联合语言到姿势(或称 JL2P)的神经结构来解决这个多模态问题,该神经结构学习语言和姿势的联合嵌入。这种联合嵌入空间是使用端到端学习,该方法在转向更长和更难的序列之前首先强调更短和更容易的序列。我们在公开可用的 3D 姿势数据和人类注释句子的语料库中评估该模型。客观指标和人类判断评估都证实我们提出的方法能够生成更准确的动画,并且被视为人类在视觉上比其他数据驱动方法更具代表性。