项目地址:http://wellyzhang.github.io/project/raven.html
视觉研究不仅必须包括如何从图像中提取信息,同时也是对信息的内部表征本质的探究,从而将其作为决定我们想法和行动的基础。(David Marr,1982 年 [35])
计算机视觉应用范围非常广泛。一些计算机视觉问题明显是纯粹从视觉上「捕获」视觉信息的过程;例如,早期视觉过滤器 [5] 以 primal sketch[13] 作为中间表征,以格式塔法则(Gestalt law)[24] 作为感知组织。相比之下,其他一些视觉问题对于感知图像的要求比较琐碎,但是在关系或类比视觉推理方面能解决更普遍的问题 [16]。在这种情况下,视觉组成成为「决定我们想法和行动的基础」。
目前,大多数计算机视觉任务都聚焦于「捕获」视觉信息的过程;很少有工作重点放在后面的部分——关系或类比的视觉推理。在为人工系统配备推理能力方面,现有的一项工作围绕着视觉问答(VQA)展开 [2,22,48,58,62]。然而,VQA 所需的推理能力只处于认知能力测试圈的边缘 [7]。为了突破计算机视觉的极限,甚至人工智能(AI)的极限,在认知能力测试圈的中心,我们需要设计一个用于测量人类智能的测试来挑战、调试和改进现有的人工系统。
一个非常有效的人类视觉推理能力测试已经开发出来,被称为瑞文测试(Raven's Progressive Matrices,RPM)[28,47,52]。瑞文测试(RPM)是一项广泛应用的非文字推理能力测试,属于渐近性矩阵图。测试者需要在渐进矩阵图中根据直接观察结果进行间接抽象推理。这一测试已得到广泛认可,并被认为与真实智能高度相关 [7]。与 VQA 不同,RPM 直接位于人类智能中心 [7],是对抽象和结构推理能力的判断 [9],并且描述了高级智能的定义特征,即流体智能 [21]。
图 1 显示了 RPM 问题及其结构表征。提供了由视觉上简单的元素组成的两行图形,一个必须有效地导出正确的图像结构(图 1(b))和基本规则(图 1(c)),从而共同推理出最佳的候选图像。就所需的推理水平而言,RPM 可能比 RPM 更难:
在 VQA 中,自然语言指出了图像中需要注意的东西,但 RPM 与之不同,它仅依赖于矩阵中提供的视觉线索和对应问题本身,即找到正确的编码属性级,这已经是区分不同智力人群的一个主要因素了 [7]。
VQA 只需要空间和语义理解,但 RPM 需要在问题矩阵和答案集中进行时空联合推理。短期记忆的限制、类比能力以及结构的发现也必须考虑在内。
RPM 中的结构使规则的组合更加复杂。VQA 的问题仅编码相对简单的一阶推理,但 RPM 通常包括更复杂的逻辑,甚至使用递归。通过在不同级别编写不同的规则,推理过程可能会非常困难。
为了突破当前视觉系统推理能力的极限,UCLA 朱松纯团队生成了一个新的数据集,以促进该领域的进一步研究。他们将这个数据集称为关系和类比视觉推理数据集(RAVEN),以纪念 John Raven 开创 RPM 的工作 [47]。综上所述:
RAVEN 由 1,120,000 个图像和 70,000 个 RPM 问题组成,均匀分布在 7 种不同的图形配置中。
每个问题都有 16 个树结构注释,在整个数据集中共计 1,120,000 个结构标签。
研究者设计了 5 个规则管理属性和 2 个噪声属性。每个规则管理属性至少包含 4 个规则之一,同一组中的对象共享同一组规则,共计 440,000 个规则注释,每个问题平均有 6.29 个规则。
RAVEN 数据集本身设计为轻视觉识别、重推理的形式。每个图像仅包含一组简单灰度物体,边界清晰没有遮挡。与此同时,规则是逐行应用的,每个属性可有一个规则,以应对视觉系统在短期记忆和组成成分推理中的主要弱点 [22]。
一个明显的悖论是:在这个组合和结构化的 RPM 问题中,以前的工作没有提供结构注释(如[3,55])。因此,研究者开始在 RPM 中建立视觉推理和结构推理之间的语义联系。他们将每个问题实例与属性随机图像语法(A-SIG)[12,30,43,56,60,61] 的句子相对应,并将数据生成过程分解为两个阶段:第一阶段从预定义的 A-SIG 中对句子进行采样,第二阶段基于句子渲染图像。这种结构化设计使数据集非常多样化,且易于扩展,从而可以在不同的图形配置中进行泛化测试。更重要的是,数据生成流程为他们提供了丰富的密集注释,尤其是图像空间中的结构。视觉和结构表征之间的这种语义联系,将问题分解为图像理解和树或图级推理,从而有了新的可能 [26,53]。实验证明,采用简单的结构推理模块,将视觉层级的理解和结构层级的推理结合起来,可以显著提高模型在 RPM 中的性能。
论文:RAVEN: A Dataset for Relational and Analogical Visual rEasoNing
论文链接:https://arxiv.org/abs/1903.02741
涉及低级感知的基本视觉任务(例如物体识别、检测和追踪)已经取得了显著的进展。不幸的是,就更高级别的视觉问题而言,人工视觉系统与人类智能之间仍存在巨大的性能差距,尤其是推理问题。早期为机器配备高级推理的工作一直围绕着视觉问答(VQA)展开,这是一项将视觉和语言理解联系起来的典型任务。在此项工作中,我们提出了一个新的数据集,它基于瑞文测试(RPM),旨在通过将视觉与结构、关系和类比推理在层级表征中相关联来提升机器智能。与之前使用 RPM 测量抽象推理的工作不同,我们通过提供结构表征来建立视觉和推理之间的语义联系。通过对结构表征进行联合操作,可以实现新型的抽象推理。在这个新提出的数据集中,我们评估了使用现代计算机视觉的机器的推理能力。此外,我们还提供人类表现作为参考。最后,我们通过合并一个结合视觉理解和结构推理的简单神经模块,在所有模型上都实现了改进。