Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟、杜伟编译

实习期完成,无图像对和域标签,博士小哥实现完全无监督的图像转换

图像到图像转换是一项非常重要的研究课题,也出现了很多图像转换方法,但是相关图像到图像转换模型都脱离不了监督训练。因而,越来越多的研究人员开始探索无监督设置下的图像到图像转换方法。2019 年 5 月,英伟达的一项研究探索 few-shot 无监督的图像到图像转换算法,并实现了逼真的转换效果。近日,韩国延世大学等机构的研究者实现了完全无监督设置下的图像到图像转换。

我们都知道,最近出现的各种图像到图像转换模型都至少使用图像级(即输入 - 输出对)或集合级(即域标签)监督中的一种。但实际上,即使是集合级的监督也可能成为数据收集过程中严重的瓶颈。

因此,在本篇论文中,来自韩国延世大学、Naver 株式会社 Clova AI Research 和瑞士洛桑联邦理工学院的研究者在完全无监督设置下完成图像到图像的转换,即既没有图像对也没有域标签。值得关注的是,本文是一作 Kyungjune Baek 在 Clova AI Research 实习期间完成的。

  • 论文链接:https://arxiv.org/pdf/2006.06500.pdf

  • 代码地址:https://github.com/clovaai/tunit

那么研究者是如何实现无监督的图像到图像转换呢?

他们提出了一种真正的无监督图像到图像转换方法(truly unsupervised image-to-image translation method, TUNIT),在该方法中,通过信息论(information-theoretic)方法学习分离图像域以及使用预估域标签生成相应的图像,二者同时进行。

在各种数据集上的实验结果表明,该方法能够成功分离域,并且在这些域之间实现图像转换。此外,在提供域标签子集的半监督设置下,该模型的性能优于现有的集合级监督方法

如何实现的

首先,研究者阐明,本文中的无监督图像到图像转换属于无任何监督的任务,也就是没有图像级和集合级监督。其中有来自 K 个域(K≥2)的图像 X,没有标签 y,K 是数据集的一个未知属性。

图 2:三种监督级别,以往的图像到图像转换方法通常依赖 (a) 图像级和 (b) 集合级监督,而本研究提出的方法在执行图像到图像转换任务时使用的是 (c) 无任何监督的数据集。

接着,研究者提出了一个名为引导网络(guiding network)的模型,它集成了域分类器和风格编码器。通过将风格代码馈入到生成器以及将伪域标签馈入到鉴别器,该模型指导转换过程。

最后,通过使用来自鉴别器的反馈,生成器合成目标域(例如品种)的图像,同时尊重参考图像的风格(例如毛发图案),保持源图像的内容(例如姿势),具体架构如下图 3 所示。

图 3:该研究所提方法的概览。

学习生成域标签,编码风格特征

在该研究的框架中,引导网络 E 同时发挥着无监督域分类器和风格编码器的作用。引导网络 E 由 Eclass 和 Estyle 两部分组成,它们分别学习提供域标签和风格代码。

带有域指导的图像到图像转换

对于成功的图像转换,转换模型应该提供包含目标域视觉特征的逼真图像。为此,研究者采用了 3 种损失:1)生成逼真图像的对抗损失;2)鼓励模型不要忽略风格代码的风格对比损失;3)保留域不变(domain-invariant)特征的图像重建损失。

最后共同训练鉴别器、生成器和引导网络,具体公式如下所示:

效果怎么样

所提策略的效果

对于这种可以同时执行表示学习和训练转换网络的训练策略,研究者进行了深入探究。尽管可以轻松想到分别训练引导网络和生成对抗网络(GAN),但研究者证实了这会大大降低整体性能。

为了分析不同训练策略的效果,研究者在训练迭代的过程中绘制了逐级 FID,并提供了 tSNE 可视化图,如下图 4 所示:

图 4:单独训练与联合训练的比较。

从 FID 的比较来看,相较于联合训练策略,单独训练策略得到的平均 FID 分值要高得多,标准差也更高。这清楚地表明,联合训练在图像质量和性能稳定两方面更加高效。

不带任何标签的图像到图像转换

为了证实该方法能够处理无监督情况下的图像到图像的转换,研究者分别在 AFHQ、FFHQgaimoxi 和 LSUN Car 数据集上对模型进行了评估。

图 6:在 AFHQ wild 上训练引导网络时,它的风格空间的 t-SNE 可视化图。

图 7:无监督情况下,在 AFHQ 上的图像到图像转换结果。

图 8:无监督情况下,在 FFHQ 和 LSUN Car 上的图像到图像转换结果。

带有少量标签的图像到图像转换

研究者将该模型与在半监督学习设置下两个方案训练的 SOTA 模型做了比较,他们将数据集 D 划分为标注集 Dsup 和未标注集 Dun,变化比率 γ = |Dsup|/|D|。

第一个方案是只用 D_sup 训练模型;第二个方案是为了解决训练转换模型时可用样本数量不公平的问题。

Naïve 方案

下图 10(a)和(b)展示了在 Summer2winter 和 AnimalFaces-10 上使用逐级 FID 的定量结果。

图 10:naïve 方案中,不同比例的标注图像的 FID 曲线变化图。

下图 9 展示了该研究的结果与使用 naïve 方案训练的基线方法的定性结果比较。

图 9:不同比例的标注图像的定性结果比较。

替代方案

用 naïve 方案训练的基线方法不能完全利用训练样本,因为它根本不考虑 D_un。因此,为了更好地利用全部训练样本,研究者使用 D_sup 从头开始训练辅助分类器,以生成 D_un 的伪标签。

图 11:替代方案下 Summer2winter 上的 FID 曲线变化图。

下图 12 展示了 AnimalFaces-10 上的分类准确度和 FID 分数。

图 12:(a)替代方案下 AnimalFaces-10 上的 FID 曲线变化图;(b)AnimalFaces-10 上的分类准确度曲线。

辅助分类器的准确性随着训练样本(带标签)的数量的增加而提高。更高的分类精度自然可以提高转换质量。尽管 FUNIT 的 8% 的情况和 1% 的情况下的分类精度相似(约为 86%),但转换性能显示出了明显的差距(FUNIT 是 59.6,该研究的模型是 47.9)。这意味着准确性不是唯一的评判转换性能的因素。基于广泛的比较与评估,研究者表明提出的模型对半监督方案是有效的,并且相比于基线有显著的改善。

理论韩国延世大学博士完全无监督图像转换
相关数据
图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

推荐文章
暂无评论
暂无评论~