通过语句中的人物与动作视频分割
近日,一篇名为「通过语句中的人物与动作视频分割」的新论文在 arXiv 引起较多关注,以下为论文概要:本文力求对视频中人物及其在视频中的行为进行像素级分割。该论文研究与现有的其他技术不同,现有研究通常通过从视频人物和动作进行固定词汇的细分,但是该研究从解剖语言输入句中推断出细分成分。这也就意味着,该研究允许区分同一类别中的细微差别,识别人物和动作实例,以及在人物和动作词汇之外的片段匹配。我们提出了一种用于像素级和动作分割的完全卷积模型,其使用针对视频优化的编码器-解码器架构。展示人物和动作视频分割在句子中的潜在使用价值,我们扩展了两个具有超过 7,500 种自然语言描述的人物和动作数据集。实验证明,句子引导分割的质量,我们模型的泛化能力,以及其与传统的人物和行动分割相比,有相较现有技术更多的优势。