伯克利大学及 Google Brain 研究新作,「语义瓶颈场景生成」
近日,一篇美国加州伯克利大学与 Google Brain 合著研究新作「语义瓶颈场景生成」在社群中引发关注。以下为论文概要:结合标签条件图像合成方法的高保真度生成能力与无条件生成模型的灵活性,我们提出了一种语义瓶颈 GAN 模型,用于复杂场景的无条件合成。我们假设在训练过程中可以使用按像素细分的标签,并使用其来学习场景结构。在推理过程中,我们的模型首先从头开始合成现实的分割布局,然后合成以该布局为条件的现实场景。对于前者,我们使用无条件的渐进式分段生成网络,该网络捕获了现实的语义场景布局的分布。对于后者,我们使用条件分段图像合成网络,该网络捕获基于语义布局的照片级逼真图像的分布。当进行端到端训练时,就 Frechet 起始距离和用户研究评估而言,在两个具有挑战性的领域中,所得模型在无监督图像合成方面要优于最新的生成模型。此外,我们证明了生成的分割图可以用作其他训练数据,以极大地改善近期分割图像合成网络的表现。