杜伟 一鸣报道

对标GLUE、ImageNet,谷歌推出视觉任务适应性基准 VTAB

众所周知,图像分类领域有 ImageNet 数据集,自然语言处理领域有 GLUE 基准,这些基准在对应领域的进展中发挥了重要作用。终于,谷歌推出了视觉任务适应性领域的基准 VTAB(Visual Task Adaptation Benchmark),该基准有助于用户更好地理解哪些哪些视觉表征可以泛化到更多其他的新任务上,从而减少所有视觉任务上的数据需求。

深度学习已经给计算机视觉领域带来了诸多改变。其中,达到 SOTA 水平的深度网络能够直接从原始像素中学习有用的表征,从而在众多视觉任务上取得了前所未有的性能。但是,「从零开始」学习这些表征通常需要大量的训练样本。使用预训练表征可以减轻这一训练负担,并且 TensorFlow Hub(TF Hub)和 PyTorch Hub 等服务能够提供这类预训练表征。但是,这种非常普遍的服务本身也可能成为一种障碍。举例而言,对于从图像中提取特征的任务来说,目前已有 100 多种模型可供选择。这就很难让用户决定采用哪种方法,从而为下游任务提供最佳的表征信息。这是因为不同的子领域使用的评估方案也不同,因而常常无法反映新任务上的最终性能。

所以,表征研究的核心目标是在大量通用数据的基础上,一次性地学习表征,而不需要在处理新任务时再重新开始训练。这样就可以减少所有的视觉任务上的数据需求。但是,如果要实现这一目标,研究社区必须创建一个统一的基准,以对现有的和以后的方法进行评估。

为了解决这方面的问题,昨天,谷歌 AI 推出了「视觉任务适应性基准」(Visual Task Adaptation Benchmark,VTAB)。这是一个多样性的、真实的和具有挑战性的表征基准。这一基准基于以下原则:在所需领域内数据有限的情况下,更好的表征应当能够在未见任务上实现更佳的性能。受启发于推动其他机器学习领域进展的一些基准,如用于自然图像分类的 ImageNet、自然语言处理的 GLUE 和强化学习的 Atari,VTAB 遵循相似的准则:(i)对解决方案施加最小约束,以鼓励创造性;(ii)注重实际;(iii)借助挑战性任务进行评估。

  • 论文地址:https://arxiv.org/abs/1910.04867

  • 项目地址:https://github.com/google-research/task_adaptation

  • VTAB 基准公开排行榜:https://google-research.github.io/task_adaptation/

谷歌的视觉任务适应性基准(VTAB)

VTAB 评估方案设计用于衡量通用且实用的视觉表征研究。这一基准同时也包含学习算法必须解决的一系列视觉评估任务。这些算法可利用预训练的视觉表征来辅助学习,同时必须满足以下两个要求:

  1. 不得将下游评估任务中使用的任何数据(标签或输入图像)用于预训练;

  2. 不得包含硬编码、针对特定任务或相关的逻辑。换言之,评估任务必须被视作模型未见的数据集。

这些约束条件能够确保那些成功应用于 VTAB 的解决方案也将能泛化到将来的任务上。

设计原理

VTAB 基准首先将一种算法(A)应用到大量独立的视觉处理任务。该算法可以在上游数据上进行预训练,以生成一个包含视觉表征的模型。这一算法同时必须定义一些适应性策略。这使其可以使用每个下游任务中的小样本训练集,并最终返回一个针对特定任务做出预测的模型。该算法的最终得分是其在不同任务上的平均测试分数(average test score)。

VTAB 基准原理图。

VTAB 基准包含跨不同领域的 19 项评估任务,并分为三大类——自然图像任务、特定图像任务和结构化图像任务。其中,自然图像任务包含使用标准照相机捕获的自然世界的图像,表征为通用对象、高细粒度的类别或者是抽象概念;特定图像任务包含使用专门设备捕获的图像,如医学图像或遥感图像;结构化图像任务通常源自以理解图像间具体变化为目标的人工环境,如预测 3D 场景中到某个目标的距离(如 DeepMind Lab)、计算目标数量(如 CLEVR)或者检测方位(如用于理解表征的 dSprites)。

虽然多样性程度很高,但 VTAB 基准中的所有任务都有一个共同特征:在少量的样本训练之后,人们可以相对容易地解决这些任务。此外,为了评估有限数据下算法对新任务的泛化能力,每个任务上仅使用 1000 个样本进行性能评估。

VTAB 基准检验结果

谷歌进行了大量研究,测试了许多流行的视觉表征学习算法在 VTAB 基准下的性能表现。研究包含了生成模型(GAN 和 VAE)、自监督模型、半监督模型和监督模型。所有算法都在 ImageNet 数据集上进行了预训练。谷歌还在不使用预训练表征的情况下对比了每一种方法,即「从零开始」训练。下图展示了自然图像任务、特定图像任务和结构化图像任务上不同表征学习算法的性能结果:

不同表征学习算法在三大类任务上的性能表现。

如上图所示,谷歌发现,生成模型的性能弱于其他表征学习算法,甚至不如「从零开始」训练。自监督模型的性能表现更佳,尤其显著优于「从零开始」训练。但是,使用 ImageNet 数据集标签的监督学习是更好的方法。有趣的一点是,尽管监督学习自然图像任务上的性能显著优于其他方法,但自监督学习在特定图像任务和结构化图像任务上的性能接近,这两类任务所在的领域却与 ImageNet 更不相同。

其中性能表现最佳的表征学习算法是自监督半监督学习(Self-Supervised Semi-Supervised Learning,S4L),它包含监督和自监督预训练损失。下图对 S4L 与标准监督 ImageNet 预训练进行了比较。S4L 尤其在结构化图像任务上提升了性能。但是,除了自然图像任务之外,表征学习在「从零开始」训练上的收益要小得多,这表明获得通用视觉表征还需要更多取得进展。

自监督半监督学习(S4L)与「从零开始」训练的性能对比。每个条目对应一项任务。正值条目表示 S4L 优于「从零开始」训练的任务;负值表示「从零开始」训练性能更佳的任务。

总结

谷歌已经开源了 VTAB 项目,包含 19 个评估数据集和准确的数据分割,因而可以确保结果的可复现性。此外,VTAB 的进度在公开的排行榜(public leaderboard)进行追踪,进行评估的模型也已上传到了 TensorFlow Hub,以供用户使用和复现。谷歌还提供了一个外壳脚本(shell script),以在所有任务上进行适应性调整和评估。标准的评估方案使得 VTAB 基准可以在业界实现轻松访问。此外,VTAB 基准可以在 TPU 和 GUP 上执行,所以它非常高效。用户可以在数小时内、在单个英伟达 Tesla P100 加速器上获得对比结果。

总而言之,谷歌的视觉任务适应性基准(VTAB)可以帮助用户更好地理解哪些视觉表征可以泛化到更广泛的视觉任务上,并且为未来研究提供了方向。谷歌希望这些资源可以在推动通用且实际的视觉表征进展方面发挥作用,并因而为有限标注数据的长尾视觉问题提供深度学习方法。

参考链接:http://ai.googleblog.com/2019/11/the-visual-task-adaptation-benchmark.html

理论ImageNet计算机视觉基准测试GLUE排行榜谷歌
2
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

遥感技术

遥感(remote sensing)是指非接触的、远距离的探测技术。一般指运用传感器/遥感器探测物体的电磁波辐射、反射特性。遥感通过遥感器这类对电磁波敏感的仪器,在远离目标和非接触目标物体条件下探测目标。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

推荐文章
暂无评论
暂无评论~