参与张倩

我们用婴儿拍的视频训练了个自监督模型,学到了高级视觉表征

​「人工智能的下一个重大突破可能依赖于我们对于自己大脑的探索」——Josh Tenenbaum

最近几年,深度学习在诸多领域得到了广泛应用,但很多成绩的取得依赖于海量的数据和巨大的模型,对算力的需求也是永无止境。相比之下,人类婴儿不需要标注数据就能很快学到简单的知识。这种差别不禁让众多研究者反思,机器能否像人类一样高效学习?

因此,很多计算机科学家开始探索人类幼儿的学习方式,希望能从中得到启发,创造出更加「智能」的人工智能系统。

「想象一下,我们可以制造出一台像婴儿一样学习的机器。如果我们能做到这一点,那么这将成为人工智能的基础。」MIT 计算认知科学实验室负责人 Josh Tenenbaum 曾这样描述他们的愿景。

当然,这个愿景距离我们还有些遥远,但最近,已经有人从另一个类似的方向开始了探索。他们研究的主题是:机器可以从婴幼儿的视觉世界中学到什么?

这项研究的新颖之处在于,他们用了一个非常特殊的数据集:SAYCam。这个数据集里的图像是 3 个婴儿「亲自」拍的。

数据采集者将摄像头戴在这些婴儿的头上,让他们记录下自己视野范围内观察到的事物。这种采集活动每周 2 个小时,整个采集过程大约持续了 2 年半(最早从 6 个月大的时候开始拍)。也就是说,该数据集完整地记录了 3 个婴儿 2 年半的成长经历。这种纵深程度对于研究心理学、语言学、计算机科学的研究者来说都是一笔宝贵的财富。


来自纽约大学心理学系和数据科学中心的研究者发现了这个数据集,并结合当前比较热门的自监督学习算法训练了一个大型模型。实验结果表明,模型利用通用的自监督学习目标从该数据集中学到了强大的高级别视觉表征。该研究首次表明了利用 SOTA 自监督学习方法从儿童成长视频中学习有用高级别视觉表征的可能性。

该研究对 SAYCam 数据集的创新性应用得到了一些研究者的肯定和赞赏。

甚至已经有人开始和作者讨论下一步的研究方向。

接下来,我们来看这项研究的具体细节。

(一级)研究概述

  • 论文链接:https://arxiv.org/pdf/2007.16189.pdf

  • GitHub 链接:https://github.com/eminorhan/baby-vision


婴幼儿对于周围的世界有着广泛、复杂的知识,但这些早期知识从何而来我们还不清楚。

他们在学习说话之前就能区分很多常见的类别,三四个月的时候可以分辨简单的形状和动物种类…… 这些早期知识有多少是通过相对通用的学习架构借助儿童眼睛接收感官数据来学到的?又有多少是需要更实质性的归纳偏置才能获得的?

当然,这只是对于心理学「先天 vs 后天」传统争论的一种现代阐释。回答这个问题既需要对人类成长过程中所接收的感官数据进行精确描述,还需要确定哪些通用模型可以从这些数据中学习,且无需假定强大的先验。

尽管从根本上解决这一问题需要规模空前的数据集,而我们现在还没有能力做到,但我们可以寄希望于从一个小的领域入手,比如借助新的大规模人类成长数据集和深度学习方法的最新进展来研究视觉类别的发展。

在这篇论文中,研究者的目标是利用自监督深度学习技术和 SAYCam 数据集对上述问题进行初步探索。该数据集的规模和纵深可以帮助研究者训练一个大规模模型。他们选择使用自监督学习方法,可以避免儿童无法获得的额外监督信息。

研究者用没有标签的原始视频训练自监督模型,希望能从中提取出有用的高级别视觉表征。然后,他们利用儿童环境中的常见物体类别来测试模型的区分能力,以此来评估模型学到的视觉表征,这里只使用线性 readout。

实验结果首次表明,使用通用的自监督学习方法,基于从儿童角度收集的自然视频学习到了强大的、高级别视觉表征。这些视觉表征可以支持:1)在复杂视觉分类任务中获得高准确率;2)对自然变换保持不变性;3)从少量的训练示例泛化至未见过的类别。

模型细节

这篇论文旨在通过建模来评估模型能否从某个儿童的一段视觉经历中学到高级视觉表征,在无需限制算法在心理学上的合理性的前提下衡量哪些知识是可学习的。

基于这一目标,研究者使用自监督学习算法从头训练了深度卷积网络。训练完成后,他们利用下游分类任务评估该模型,任务中涉及的物体都是与儿童成长环境相关的类别。冻结模型的主干,仅基于模型的倒数第二层,即嵌入层,训练线性 readout。考虑到 MobileNetV2 架构在平衡效率 - 准确率方面的优秀表现,研究者在下述的所有实验中均使用了该架构。这一架构的嵌入层有 1280 个单元。

预训练模型和训练 / 测试代码参见:https://github.com/eminorhan/baby-vision

时间分类

为了利用头戴式摄像头拍摄的无标签原始视频数据训练模型,研究者基于 Földiák 等人提出的时间不变性原则应用了一个自监督学习目标。这一目标基于:与视觉场景中较低级别的变量相比,级别较高的变量在较慢的时间尺度上发生变化,因此,在较快时间尺度上不受变化影响的模型可能会学到有用的高级特征。

研究者用一个标准的分类设置实现了这个想法,他们将整个视频数据集划分为有限数量的等时长时间类别,如下图所示:


研究者针对不同的儿童训练了不同的模型,以确保它们捕捉到的是个体的视觉经历。

静态对比学习

为了创建一个不使用任何时间信息、单纯基于图像的强基线模型,研究者在摄像头数据(现在将其视为不含任何时间信息的图像集)上使用 MoCo(momentum contrast)目标训练模型。此处,他们用到的是 MoCo 的改进版实现(V2)。在自监督学习方法中,该目标在 ImageNet 上取得了接近 SOTA 的结果。

对比学习的基本思想是对语义相似(positive)的成对帧学习相似的嵌入,为语义不相似(negative)的成对帧学习不相似的嵌入。

时间对比学习

研究者还训练了一个时间对比学习器,该学习器考虑了帧与帧之间的时间关系。它与上述静态对比学习器类似,不同之处在于,每一帧的两个近邻现在都被当作与该帧相关的 positive example(与静态模型一样,时间上不相邻的帧仍被视为 negative example)。该模型将相邻帧之间的时间抖动视为另一种类型的数据增强。类似的时间对比学习模型由 Knights 等人(2020)提出。

基线模型

除了上面的自监督模型,研究者还考虑了几个基线模型作为对照:1)未经训练、具备随机权重的 MobileNetV2 模型;2)在 ImageNet 上预训练的 MobileNetV2 模型;3)HOG 特征(方向梯度直方图)作为弱基线。

对于学得表征的评价与分析

在实验部分,研究者在下游线性分类任务中评估了上述自监督模型的性能,并与基线模型进行了比较。

下图 3 展示了所有模型在线性分类任务上的 top-1 分类准确率。从中可以看出,带有时间分类目标的自监督模型在所有组中表现都很出色,有时甚至会超过基于 ImageNet 训练的强基线模型。


为了更直观地了解自监督模型的表示能力,研究者还在 4 个更具挑战性的分类任务上进行了测试,结果如下图 4 所示。图 4a 显示,自监督 TC-S 模型在所有任务中均取得相对较高的准确率。

参考链接:https://cloud.tencent.com/developer/news/317698
工程自监督学习纽约大学计算机视觉
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~