中国科学院大学Oral论文:使用鉴别性特征实现零样本识别

在将于今年六月举办的 CVPR 2018 会议上,中国科学院大学、英国邓迪大学和中国科学院脑科学与智能技术卓越创新中心的一篇 Oral 论文提出了一种使用鉴别性特征学习零样本识别的方法。和人工智能领域的很多新研究成果一样,该研究实现了当前最佳。机器之心对该研究进行了编译介绍。

近年来,零样本学习(ZSL:zero-shot learning)已经在目标识别任务中得到普及应用。传统的目标识别方法是通过将图像标签分配到训练集中见过的一个类别来预测目标实例的存在,零样本学习则与传统方法不同,其目标是识别之前从未见过的新类别中的目标实例。因此,在 ZSL 任务中,在训练集中见过的类别和测试集中没见过的类别是不相交的。

通常而言,见过和没见过的类别都要提供类别描述信息(比如用户定义的属性标注、类别的文本描述、类别名的词向量等);某些描述信息是各个类别共有的。这些描述信息通常被称为辅助信息或语义表征。在本研究中,我们关注的是使用属性的 ZSL 的学习。

如图 1 所示,典型 ZSL 方法的一个通用假设是:存在一个共有的嵌入空间,其中有一个映射函数,定义这个函数的目的是对于见过或没见过的类别,衡量图像特征 φ(x) 和语义表征 ψ(y) 之间的相容性(compatibility)。W 是所要学习的视觉-语义映射矩阵。现有的 ZSL 方法主要侧重于引入线性或非线性的建模方法,使用各种目标和设计不同的特定正则化项来学习该视觉-语义映射,更具体而言就是为 ZSL 学习 W。

图 1:经典 ZSL 方法的目标是寻找一个嵌入了图像特征 φ(x) 和语义表征 ψ(y) 的嵌入空间

到目前为止,映射矩阵 W 的学习(尽管对 ZSL 很重要)的主要推动力是视觉空间和语义空间之间对齐损失的最小化。但是,ZSL 的最终目标是分类未见过的类别。因此,视觉特征 φ(x) 和语义表征 ψ(y) 应该可以被区分开以识别不同的目标。不幸的是,这个问题在 ZSL 领域一直都被忽视了,几乎所有方法都遵循着同一范式:1)通过人工设计或使用预训练的 CNN 模型来提取图像特征;2)使用人类设计的属性作为语义表征。这种范式存在一些缺陷。

第一,图像特征 φ(x) 要么是人工设计的,要么就是来自预训练的 CNN 模型,所以对零样本识别任务而言可能不具有足够的表征能力。尽管来自预训练 CNN 模型的特征是学习到的,然而却受限于一个固定的图像集(比如 ImageNet),这对于特定 ZSL 任务而言并不是最优的。

第二,用户定义的属性 ψ(y) 是语义描述型的,但却并不详尽,因此限制了其在分类上的鉴别作用。也许在 ZSL 数据集中存在一些预定义属性没有反映出来的鉴别性的视觉线索,比如河马的大嘴巴。另一方面,如图 1 所示,「大」、「强壮」和「大地」等被标注的属性是很多目标类别都共有的。这是不同类别之间的知识迁移所需的,尤其是从见过的类别迁移到没见过的类别时。但是,如果两个类别(比如豹和虎)之间共有的(用户定义的)属性太多,它们在属性向量空间中将难以区分。

第三,现有 ZSL 方法中的低层面特征提取和嵌入空间构建是分开处理的,并且通常是独立进行的。因此,现有研究中很少在统一框架中考虑这两个组分。

为了解决这些缺陷,我们提出了一种端到端的模型,可以同时在视觉空间和语义空间中学习用于 ZSL 的隐含的鉴别性特征(LDF)。具体而言,我们的贡献包括:

  • 一种级联式缩放机制,可用于学习以目标为中心的区域的特征。我们的模型可以自动识别图像中最具鉴别性的区域,然后在一个级联式的网络结构中将其放大以便学习。通过这种方式,我们的模型可以专注于从以目标为焦点的区域中学习特征。

  • 一种用于联合学习隐含属性和用户定义的属性的框架。我们将隐含属性的学习问题形式化为了一个类别排序问题,以确保所学习到的属性是鉴别性的。同时,在我们模型中,鉴别性区域的发掘和隐含属性的建模是联合学习的,这两者会互相协助以实现进一步的提升。

  • 一种用于 ZSL 的端到端网络结构。所获得的图像特征可以调整得与语义空间更加兼容,该空间中既包含用户定义的属性,也包含隐含的鉴别性属性。

我们的方法

我们提出的方法的框架如图 2 所示。注意,原则上该框架包含多个图像尺度,但为描述清楚,这里仅给出了有 2 个图像尺度的情况作为示例。在每个图像尺度中,网络都由三个不同组分构成:1)图像特征网络(FNet),用于提取图像表征;2)缩放网络(ZNet),用于定位最具鉴别性的区域,然后将其放大;3)嵌入网络(ENet),用于构建视觉信息和语义信息关联在一起的嵌入空间。对于第一个尺度,FNet 的输入是原始尺寸的图像,ZNet 负责生成放大后的区域。然后到第二个尺度,放大后的图像区域成为 FNet 的输入,以获得更具鉴别性的图像特征。

图 2:我们提出的隐含鉴别性特征(LDF)学习模型的框架。从粗略到精细到图像表征被同时投射到用户定义的属性和隐含属性中。用户定义的属性通常是不同类别共有的,而隐含属性是为区分而通过调整类别间或类别中的距离而学习到的。

实验

我们提出的 LDF 模型在两个有代表性的 ZSL 基准上进行了评估,即:Animals with Attributes(AwA)和 Caltech-UCSD Birds 200-2011(CUB)。

表 1:使用 VGG19 和 GoogLeNet(括号中的数字)的深度特征在两个数据集上的 ZSL 结果(MCA,%)

表 2:在每个图像尺度上的详细 ZSL 结果(%)

表 3:只使用 UA 特征或 LA 特征所得到的 ZSL 结果(%)

表 4:对于 ZNet 和 ENet,联合训练和分开训练之间的结果比较

论文:用于零样本识别的隐含特征鉴别式学习(Discriminative Learning of Latent Features for Zero-Shot Recognition)

论文地址:https://arxiv.org/abs/1803.06731 

摘要:零样本学习(ZSL)的目标是通过学习图像表征和语义表征之间的嵌入空间来识别未曾见过的图像类别。多年以来,在已有的研究成果中,这都是学习对齐视觉空间和语义空间的合适映射矩阵的中心任务,而学习用于 ZSL 的鉴别性表征的重要性却被忽视了。在本研究中,我们回顾了已有的方法,并表明了为 ZSL 的视觉和语义实例学习鉴别性表征的必要性。我们提出了一种端到端的网络,能够做到:1)通过一个缩放网络自动发现鉴别性区域;2)在一个为用户定义属性和隐含属性引入的扩增空间中学习鉴别性语义表征。我们提出的方法在两个有挑战性的 ZSL 数据集上进行了大量测试,实验结果表明我们提出的方法的表现显著优于之前最佳的方法。

理论
暂无评论
暂无评论~
返回顶部