高璇 刘晓坤参与

FAIR提出用聚类方法结合卷积网络,实现无监督端到端图像分类

聚类是一种在计算机视觉被广泛应用和研究的无监督学习方法,但几乎未在大规模数据集上的视觉特征端到端训练中被采用过。在本文中,Facebook AI 研究院提出了深度聚类(DeepCluster),一种联合学习神经网络参数和获取特征的聚类分配的聚类方法。在 ImageNet 和 YFCC100M 等典型规模数据集上的卷积神经网络的无监督训练的实验结果表明,该方法在所有基准性能中都远远优于目前的技术。

预训练的卷积神经网络,或称卷积网络,已经成为大多数计算机视觉应用的基础构建模块 [1,2,3,4]。它们能提取极好的通用特征,用来提高在有限数据上学习的模型的泛化能力 [5]。大型全监督数据集 ImageNet[6] 的建立促进了卷积网络的预训练的进展。然而,Stock 和 Cisse [7] 最近提出的经验证据表明,在 ImageNet 上表现最优的分类器的性能在很大程度上被低估了,而且几乎没有遗留错误问题。这在一定程度上解释了为什么尽管近年来出现了大量新架构,但性能仍然饱和 [2,8,9]。事实上,按照今天的标准,ImageNet 是相对较小的;它「仅仅」包含了一百万张涵盖各个领域的分类图片。所以建立一个更大更多样化,甚至包含数十亿图片的数据集是顺理成章的。而这也将需要大量的手工标注,尽管社区多年来积累了丰富的众包专家知识 [10],但通过原始的元数据代替标签会导致视觉表征的偏差,从而产生无法预测的后果 [11]。这就需要在无监督的情况下对互联网级别的数据集进行训练的方法。

监督学习机器学习社区 [12] 中得到了广泛的研究,在计算机视觉应用中也经常使用聚类、降维或密度估计算法 [13,14,15]。例如,「特征包」模型使用手工标注的描述符的聚类来生成良好的图像级特征 [16]。它们取得成功的一个关键原因是,它们可以应用于任何特定的领域或数据集,如卫星或医学图像,或使用一种新的模态 (如物体深度) 获取的图像,在这种模式下,无法获得大量的标注。有几项研究表明,可以将基于密度估计或降维的无监督方法应用到深度模型中 [17,18],从而产生良好的通用视觉特征 [19,20]。尽管聚类方法在图像分类方面取得了初步的成功,但很少有人提出将其用于对卷积网络进行端到端训练 [21,22],而且未成规模。问题是,聚类方法主要是为固定特征的线性模型设计的,如果必须同时学习特征,那么它们几乎不起作用。例如,使用 k-means 学习一个卷积网络将得到零特征的平凡解,并且聚类会坍缩成单个实体。

在本文中,FAIR 的研究者提出了一种为卷积网络进行大规模端到端训练的聚类方法。他们证明了用聚类框架获得有用的通用视觉特征是可实现的。该方法如图 1 所示,是在图像描述符的聚类和通过预测聚类分配来更新卷积网络的权值之间进行交替。简单起见,我们将研究重点放在 k-means 上,但其他聚类方法也适用,比如幂迭代聚类 (PIC)[23]。整个过程重用许多常见的技巧,与卷积网络的标准监督训练十分相似 [24]。与自监督方法 [25,26,27] 不同,聚类的优点是不需要太多专业知识,也不需要输入特定信号 [28,29]。尽管此方法很简单,但它在 ImageNet 分类和迁移任务上都比以前提出的非监督方法有更好的表现。

图 1:本文提出方法的图示:对深层特征进行迭代地聚类,并使用聚类赋值作为伪标签来学习卷积网络的参数

最后,通过修改实验方案,特别是训练集和卷积网络的结构,研究者对框架的鲁棒性进行了探究。得到的实验集对 Doersch 等人 [25] 的讨论做了扩展,即关于这些选择对无监督方法性能的影响。他们证明了本文的方法使架构更具鲁棒性。用 VGG[30] 代替 AlexNet 可以显著提高特征质量和迁移性能。更重要的是,他们讨论使用 ImageNet 作为非监督模型的训练集。虽然它有助于理解标签对网络性能的影响,但是 ImageNet 有一个基于细粒度图像分类挑战的特定图像分布集:它由均衡的类组成,例如包含各类犬种。作为替代方案,可以从 Thomee 等人的 YFCC100M 数据集中选择随机的 Flickr 图片 [31]。他们的方法在对这种未确定的数据分布进行训练时有当前最佳的性能。最后,目前的基准测试侧重于无监督卷积网络捕捉类级信息的能力。研究者还建议在图像检索基准上对它们进行评估,以测量它们捕捉实例级信息的能力。

在本文中,研究者做出了以下贡献:(i) 提出一种新的无监督方法来实现卷积网络的端到端学习,这种方法可以使用任何标准的聚类算法,比如 k-means,并且只需要很少的额外步骤;(ii) 在使用无监督学习的许多标准迁移任务中达到当前最佳水平;(iii) 对未处理的图像分布进行训练时,表现优于先前的最先进技术水平;(iv) 讨论了无监督特征学习中的目前评估方案。

论文:Deep Clustering for Unsupervised Learning of Visual Features

论文地址:https://arxiv.org/abs/1807.05520v1

摘要:聚类是一种在计算机视觉被广泛应用和研究的无监督学习方法,但几乎未在大规模数据集上的视觉特征端到端训练中被采用过。在本文中,我们提出了深度聚类(DeepCluster),这是一种联合学习神经网络参数和获取特征的聚类分配的聚类方法。深度聚类使用标准的聚类算法 k-means 对特征进行迭代分组,随后使用赋值作为监督来更新网络的权重。我们将深度聚类应用于 ImageNet 和 YFCC100M 这样的大型数据集上的卷积神经网络的无监督训练。最终模型在所有基准性能中都远远优于目前的技术。

实验

在初步的实验中,研究团队研究了深度聚类在训练过程中的行为。然后,在标准基准上将其方法与之前最先进的模型进行比较之前,并对深度聚类学习的滤波器进行了定性评估。

可视化

图 3:在原始 RGB 输入 (左) 或 Sobel 滤波 (右) 之后,在无监督的 ImageNet 上训练的 AlexNet 的第一层滤波器的卷积结果。

图 4:滤波器可视化和来自 YFCC100M 的 100 万个图像子集中的前 9 个激活图像,用于在 ImageNet 上使用深度聚类训练的 AlexNet 的 conv1、conv3 和 conv5 中的目标滤波器。滤波器的可视化是通过学习一个输入图像来获得的,该图像最大化目标滤波器的响应 [64]。

图 5:来自 YFCC100M 的 1000 万个图像的随机子集中的前 9 个激活图像,用于最后卷积层中的目标滤波器。顶行对应的是对包含物体的图像敏感的滤波器。底行展示了对风格效果更敏感的滤波器。例如,滤波器 119 和 182 似乎分别被背景模糊和景深效应激活。

激活值的线性分类

表 1:使用 AlexNet 的卷积层的激活值作为特征的 ImageNet 和 Places 上的线性分类。报告的分类准确率平均超过 10 种作物。其他方法的数字来自 Zhang et al[43]。

Pascal VOC 2007

表 2:对 Pascal VOC 的分类、检测和分割的最新无监督特征学习方法的比较。∗表明 Krahenbuhl 等人使用数据依赖初始化 [68]。其他方法产生的数字被标记为 a †。

理论图像分类聚类FAIR
6
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

Alex网络技术

AlexNet是一个卷积神经网络的名字,最初是与CUDA一起使用GPU支持运行的,AlexNet是2012年ImageNet竞赛冠军获得者Alex Krizhevsky设计的。该网络达错误率大大减小了15.3%,比亚军高出10.8个百分点。AlexNet是由SuperVision组设计的,由Alex Krizhevsky, Geoffrey Hinton和Ilya Sutskever组成。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

推荐文章
暂无评论
暂无评论~