Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

抱歉我们今天想介绍的这篇论文,刚刚中了CVPR 2018最佳论文

自 CVPR 2018 公布接收论文以来,机器之心为大家介绍了多篇论文,而之后计划发布的这一篇竟然中了 CVPR 2018 的最佳论文(小编眼拙啊),所以提前推荐给了大家。

引言

目标识别、深度估计、边缘检测、姿态估计等都是研究界认为有用的和已解决的常见视觉任务的例子。其中一些任务之间有着明显的相关性:我们知道曲面法线和深度是相关的(其中一个是另外一个的导数),或者空间中的灭点(vanishing point)对于定位是有帮助的。其他任务相关性不太明显:关键点检测和空间中的阴影如何共同执行姿态估计。

计算机视觉领域发展至今,确实没有明确地使用这些相关关系。我们通过开发先进的学习器(如 ConvNets)已经取得了显著的进展,这些学习器能够在给定训练数据即多组满足 x ∈ X,y ∈ Y 的(x,y)时,找到从 X 到 Y 的复杂映射关系。这通常被称为是完全监督学习,并且常常可以独立地解决问题。主题分类任务使得训练新任务或综合感知系统成为一个西绪弗斯式的挑战,每项任务都需要单独从头开始学习。这样做,忽略了任务之间可量化的相关性,导致了对大量标记数据的需求。

图 1:由计算任务分类(Taskonomy)发现的一个示例任务结构。例如,从图中可以发现通过将曲面法线估计器和遮挡边缘检测器学习到的特征结合起来,用少量标记数据就能快速训练用于重描影和点匹配的优质网络。

另外,结合了任务之间相关性的模型只需要较少的监督,使用更少的计算并以更可预测的方式运行。结合这样的一种架构是开发可被证明有效的综合/通用感知模型 [34, 4] 的第一块垫脚石,也就是说,这种模型能够在对监督或计算的需求变得棘手之前解决大量任务。然而,这个任务空间的结构及其影响在很大程度上仍然是未知的。这些相关性是重要的,然而因为我们的学习模型和优化器还不完善,所以找到它们变得十分复杂。

在本文中,研究者试图揭示这个底层结构,并提出一个映射视觉任务空间的框架。这里所说的「结构」指的是一组通过计算发现的相关关系,其指定哪些任务向另一个任务提供有用的信息,以及提供多少信息(见图 1)。

为此,通过将神经网络作为计算函数类,研究者采用了一种完全计算的方法。在一个前馈网络中,每一层相继生成输入的更抽象表征,这些表征包含从输入到输出的映射所需的信息。然而,若假设任务以某种形式相互关联 [83, 19, 58, 46],则这些表征可以传输对解决其他输出(任务)有益的统计量。本文方法的基础:基于一项任务的解决方案是否可以足够轻易地从另一项任务训练的表征中读出,以计算任务之间的亲和矩阵。这样的迁移是完全抽样的,并且通过一个二进制整数规划范式从中提取一个全局有效的迁移策略。结果表明,相比于独立地学习任务,这个模型可以使用更少的数据来解决任务,同时最终得到的结构对常用数据集一样有效(ImageNet [78] 和 Places [104])。

本文提出的完全计算和基于表征的方法避免了在任务空间上施加先验(可能是错的)假设。这是至关重要的,因为有关任务之间相关性的先验通常源于人的直觉或分析性知识,然而神经网络并不需要遵循相同的原理运行 [63, 33, 40, 45, 102, 88]。比如,尽管我们可能预期深度可以更好的迁移到曲面法线(求导是容易的),但发现在一个计算框架中反向迁移更好(即更适合神经网络)。

图 2:任务相关性的计算建模并创建分类。从左到右:I. 训练特定任务的网络。II. 在隐空间内训练(一阶或更高阶)任务之间的迁移函数。III. 使用 AHP(层次分析法)得到归一化的迁移亲和性。IV. 使用 BIP(二进制整数规划)查找全局迁移的分类。

图 3:任务字典。对一项查询(左上)的(26 个任务中的)24 个特定任务网络的输出。在这里查看视频中应用框架的逐帧结果。

图 4:迁移函数。训练一个小型读取函数,将源任务冻结的编码器的表征映射到目标任务的标签上。如果阶数 > 1,则迁移函数接收来自多项源任务的表征。

图 5:将结果从 5 个不同的源任务上迁移到曲面法线(上)和 2.5 维分割(下)。不同源之间可转移性的差异是明显的,在这种情况下,重描影是迁移性最佳的任务之一。特定任务的网络使用 60 倍的数据进行训练。「Scratch」是无迁移学习下的从头开始训练。

图 6:高阶迁移。表征可以包含辅助信息。例如,通过从三维边缘和曲率同时进行迁移,单个楼梯能被提取出来。有关更多的示例,请参阅公开的交互式迁移可视化页面:http://taskonomy.stanford.edu/tasks/。

图 7:经过层次分析法(AHP)归一化操作前(左)、后(右)的一阶任务亲和矩阵。越低意味着迁移表现越好。对于可视化,我们使用了标准亲和距离,dist = e^−β·P(其中 β = 20 并且 e 是逐元素求矩阵对数)。对于高阶迁移的完整矩阵,请参阅补充材料。

表 1:特定任务网络的性能:胜率 vs. 随机(高斯)网络表征的读数与统计上获知的猜测平均值。胜率(%)是测试集中超过基准的图片比例。表 1 提供了特定任务网络与两种基准的胜率。一个随机测试样本的可视化输出如图 3 所示。表 1 中的高胜率和定性结果表明网络训练良好且稳定,可用于建模任务空间。

图 8:给定不同监督预算(x 轴)和允许的最大迁移阶数(y 轴)的情况下,用于解决 22 个任务的计算分类法。其中一个被放大以提高可见性。具有传入边缘的节点是目标任务,其传入边缘的数量是其选择的迁移函数的阶数。当预算为 26(全部预算)时,仍然迁移到某些目标上意味着某些迁移开始比它们完全监督下特定任务的对应变体表现的更好。通过增益和性能指标来查看节点颜色编码的交互式求解器网站:http://taskonomy.stanford.edu/api/。颜色暗淡的节点只是源任务,因此,只有在通过 BIP 优化转化为其中一个来源这项操作被认为是有价值的时候,其才会参与到分类中。

图 9:为解决完整的任务字典而计算的分类评估。随着监督预算的增加(→),使用计算分类法推荐的策略得到每个任务的增益(左)和性能(右)。迁移阶数如下所示为 1 到 4。

图 10:推广到新的任务。每行表示一个新的测试任务,左:使用针对新任务设计的「全合一」的 1-4 阶的迁移策略得到增益和性能。右:在各种自监督方法、ImageNet 特征和从头开始训练下的迁移策略的胜率(%),如图中彩色行所示。请注意分类法的巨大优势。无颜色的行表示相应的损失值。

图 11:架构的重要性。本文的分类法与随机迁移策略(使用允许的最大监督预算的随机可行分类法)的比较。Y 轴表示性能或增益,X 轴是监督预算。绿线和灰线分别代表本文的分类法和随机连接。误差线表示 5% - 95%。

图 12:评估已有架构在其他数据集上的表现:用于目标分类的 ImageNet [78](左)和用于场景分类的 MIT Places [104](右)。Y 轴表示外部基准的准确率,而 X 轴上的条形根据数据集上的分类预测性能进行排序。一个单调递减的图形相当于保持相同的顺序和完美的泛化。

图 13:任务相似性树。基于迁移-输出模式的任务的合并聚类(即使用归一化亲和矩阵的列作为任务特征)。三维、二维、低维几何和语义任务使用一种完全计算的方法聚集在一起。

论文:Taskonomy: Disentangling Task Transfer Learning(任务分类法:解构任务迁移学习

论文地址:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf

视觉任务之间是否相关?例如,能否使用曲面法线简化估计图像深度的过程?直觉上对这些问题的正面回答暗示着在各种视觉任务之间存在一种结构。了解这种结构具有巨大的价值;它是迁移学习背后的概念,且可为识别任务间的冗余提供了一种有理可依的方法,比如,为了在相关任务间无缝地重复使用监督或在一个系统中解决多个任务而不增加复杂度。


我们提出了一种完全计算的方法来建模视觉任务的空间结构,通过在一个位于隐空间内的 26 个二维、2.5 维、三维和语义任务中寻找(一阶或更高阶)迁移学习依赖关系来实现。其成品是用于任务迁移学习的计算分类图。我们研究了这个结构的成果,比如出现的非平凡相关关系,并利用它们减少对标注数据的需求。比如,我们展示了解决一组 10 个任务所需的标注数据点总数可以减少约 2/3(与独立训练相比),同时保持性能几乎一致。我们提供了一套计算和探测这种分类结构的工具,包括一个求解器,用户可以用它来为其用例设计有效的监督策略。

理论计算机视觉迁移学习多任务学习
11
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。 边缘检测是图像处理和计算机视觉中,尤其是特征检测中的一个研究领域。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

推荐文章
暂无评论
暂无评论~