参与乾树 张倩

iCAN:以人为中心的“人-物”交互检测网络

视觉识别近年来发展迅速,包括物体检测、分割和动作识别。但是,理解场景不仅需要检测单个物体实例,还需要识别物体对之间的视觉关系,其中尤为重要的一环是检测并识别每个人如何与周围物体交互,即人-物交互(HOI)检测。本文提出了一种以实例为中心的端到端可训练注意力网络——iCAN,学习使用人或物体实例的外观来突出信息区域。该网络在COCO 和 HICO-DET两个HOI 基准数据集上取得了新的当前最佳性能。

图 1:人 - 物体交互检测。给定输入图像(左)和图像中检测到的对象实例(中),利用本文提出的模型检测并识别每个人之间的交互以及与他们交互的物体(右)。

引言

在过去几年里,视觉识别任务飞速发展,包括物体检测 [8,10,27,34]、分割 [5,11,18,28] 和动作识别 [6,9,13,30,41]。但是,理解场景不仅需要检测单个物体实例,还需要识别物体对之间的视觉关系。视觉关系检测中尤为重要的一环是检测并识别每个人如何与周围物体交互。

该任务称为人-物交互(HOI)检测 [4,14,15,16],旨在定位人、物体并识别人与物体之间的交互。图 1 中展示了 HOI 检测问题的一个例子。给定输入图像和物体检测器检测到的实例,研究者的目标是识别出所有的“人-动词-物体”三元关系组。

为何是 HOI?检测和识别 HOI 是朝着更深入理解场景迈出的重要一步。而不是“哪里有什么?”(即,在图像中定位物体实例),HOI 检测的目标是回答“发生了什么?”的问题。研究 HOI 检测问题也为其他相关的高级视觉任务提供了重要线索,例如姿态估计 [2,40],图像标注 [24,39] 和图像检索 [21]。

为何要注意力?受物体检测进步 [18,34]的推动,最近的一些工作致力于检测图像中的 HOI [4,14,16,35]。大多数现有方法使用人和物体的外观特征以及它们的空间关系来推断交互。除了仅使用人的外观特征之外,最近的动作识别算法还利用来自图像的语境线索。

如图 2 所示,编码语境的例子包括通过使用人类和物体边界框 [29] 的并集,提取人类姿势关键点周围的特征 [6],或从整个图像中利用全局语境 [31] 来选择一个辅助框 [13]。虽然结合语境通常有助于提高性能,但这些手工设计的注意力区域可能并不总是与识别的动作/交互相关。

例如,加入人体姿势可能有助于识别“骑行”和“投掷”等行为,加入交互点可能有助于识别涉及手 - 物体交互行为,例如“用杯子喝水”和“用勺子吃饭”,加入背景可能有助于区分“用网球拍击中”和“用棒球棍击中”。为了解决这一局限,最近的工作利用端到端的可训练注意力模块进行动作识别 [9] 或图像分类 [20]。但是,这些方法是为图像级分类任务而设计的。

图 2:上下文特征示例。除了使用人和物体的边界框之外,从图像捕获语境线索的不同方式。

本文提出了一种以实例为中心的端到端可训练注意力模块,学习使用人或物体实例的外观来突出信息区域。直觉是,实例(人或物体)的外观暗示了我们应该注意图像中的哪些位置。

例如,为了更好地确定一个人是否拿有物体,应该将注意力集中在人手周围。另一方面,对于图像中的自行车,知道附近人的姿势有助于消除关于物体实例(例如,骑或推自行车)的潜在交互的歧义。本文提出的以实例为中心的注意力网络(iCAN)动态地为每个检测到的人或物体实例生成注意力映射,突出显示与该任务相关的区域。

研究者验证了该网络设计在 HOI 检测的两个大型公开基准测试中的性能:COCO 中的动词(V-COCO)[16] 和人类与常见物体的交互(HICO-DET)[4] 数据集。结果表明,研究者提出的 iCAN与现有的最佳方法相比具有一定的优势, 比现有最佳算法在 V-COCO 上的性能相对提高约 10%,HICO-DET 约 49%。

本研究主要有以下四个贡献。

1. 引入了一个以实例为中心的注意力模块,它允许网络动态突出信息区域以改进 HOI 检测。

2. 在两个大型 HOI 基准数据集上取得了新的当前最佳性能。
3. 进行了详细的对比实验和误差分析,以确定各个组成部分的相对贡献,并量化不同类型的错误。
4. 发布了源代码和预训练模型,以促进将来的研究。

论文:iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection

论文链接:https://arxiv.org/pdf/1808.10437v1.pdf

摘要:检测和识别单物体实例近年来取得了快速进展。然而,为了理解场景中的情况,计算机需要理解人类如何与周围物体交互。研究者在本文中解决了检测人-物交互(HOI)的困难任务。其核心思想是人或物体实例的外观包含指示线索,利用这些信息可以注意到图像中可以促进交互预测的部分。为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根据每个实例的外观动态突出显示图像中的区域。这种基于注意力的网络允许研究者选择性地聚合与识别 HOI相关的特征。研究者验证了网络在 COCO 和 HICO-DET 数据集中对动词的有效性,并表明本文的方法优于当前最佳方法。

实验结果

研究者评估了提出的 iCAN 模型的性能,并基于两个大型 HOI 基准数据集与当前最佳模型进行了比较。详细的类级别的性能和误差诊断等其他结果都可以在补充材料中找到。源代码和预训练的模型可在研究者的项目主页上找到。

表 1:在 V-COCO 测试集上与当前最佳模型的性能比较。

图 5:V-COCO 测试集上的 HOI 检测样本。研究者的模型在生活照中检测出各种形式的 HOI。模型检测到在不同情况下与人进行“骑”、“吃”、“躺”和“喝”交互的各种物体。

图 6:HICO-DET 测试集上的 HOI 检测样本。研究者的模型检测到对同一类别物体的不同类型的交互。

以实例为中心的注意力网络

图3:模型概述。研究者提出的模型包括以下三个主要流:(1)基于人类外观检测交互的人流; (2)基于物体外观预测交互的物体流;(3)用于编码人类和物体边界框之间的空间布局的配对流。基于现有的 Faster R-CNN 检测到的对象实例,使用所有的人 - 物体对生成 HOI 假设。然后融合来自各个流的动作分数以产生最终预测,如右图所示。

图 4:iCAN 模块。给定图像的卷积特征(以灰色显示)和人/物体边界框(以红色显示),iCAN 模块提取实例

(人类)或(物体)的外观特征以及来自以实例为中心的注意力映射的特征。为了计算注意力映射,研究者使用 512 个通道的 bottleneck 来评估嵌入空间中的相似性 [37,38]。具体来说,研究者用 1×1 卷积和实例外观特征将图像特征嵌入到全连接层中。这里的 res5 表示第五个残差块,GAP 表示全局平均池化层,FC 表示全连接层。

理论论文计算机视觉
6
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

图像标注 技术

图像标注(Image Captioning)是计算机根据图像自动生成相对应的描述文字,是自然语言处理与计算机视觉领域的结合。由于这项工作同时涉及到图像理解和语言生成,在深度学习到来以前是很难完成的复杂任务。在深度学习到来后,凭借 CNN(卷积神经网络)和 RNN(循环神经网络)强大的特征分析能力,我们可以通过 CNN 将图片编码为一个特征向量,再利用 RNN 的语言模型将其解码为句子。这种解决问题的方式,是从机器翻译演变而来的。在机器翻译中,我们用 RNN 把源句子编码为一个向量,现在我们把 RNN 替换为 CNN,把源句子替换为源图像,即转化到了图像标注的问题上。随着研究的深入,在这一个问题上,也有了更多样化的解决思路,比如引入 GAN(对抗生成网络)和强化学习来提高语言的生成质量。

推荐文章
暂无评论
暂无评论~