Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Yifei Huang(黄逸飞)、Minjie Cai(蔡敏捷)、Zhenqiang Li(李振强)、Yoichi Sato(佐藤洋一)作者

基于人类注意力转移机制,东京大学等提出新的注视点预测模型。

准确估计第一人称视频中人的注视点能够帮助计算机更好地预测人的关注区域,对于计算机自动理解人的动作和人与人之间的交互行为具有重要意义。近日,来自东京大学和湖南大学的研究者们提出了一个全新的视角和方法对这一问题进行建模,新的方法在第一人称视频的注视点估计任务上大大超出了已有方法的性能。目前这项研究工作已被全球计算机视觉三大顶会之一的欧洲计算机视觉大会 (ECCV 2018) 收录,并被邀请赴会进行口头报告 (Oral Presentation)。

论文:Predicting gaze in egocentric videos by learning task-dependent attention transition 

背景

近年来,随着便携式相机在记录人们日常生活体验(lifelogging)等方面的普及,基于第一人称视角拍摄的视频开始大量出现,而以自动分析理解第一人称视频为主要任务的第一人称视觉逐渐得到研究者们的关注,成为计算机视觉领域的热点方向之一。在第一人称视频中,注视点(gaze)被定义为人眼视线聚焦的区域,注视点及其周边区域包含了与相机穿戴者相交互的物体或该穿戴者的意图相关的重要信息,因此,对第一人称视频注视点的自动预测(gaze prediction)能够让计算机重点关注视频中与分析理解人的动作和意图最相关的重要区域,减少第一人称视觉的各种学习和推断任务所需的计算量,提高视觉模型的建模效率。本文致力于提出一个有效的方法来实现对第一人称视频注视点的准确估计。

传统方法通常将这一问题构建成一个视觉显著性(visual saliency)的估计问题,通过自下而上(bottom-up)的方法框架从输入图像或视频中提取自定义的(例如手的位置)或可学习的视觉特征(例如卷积神经网络),并进而训练一个视觉模型来预测显著性最高的区域作为肯能的注视点。但是,基于视觉显著性的方法并不能有效地预测第一人称视频的注视点,尤其是在包含复杂的日常动作的视频中,任务相关的高层知识对于人的注视点转移有重要的影响,而基于视觉显著性的模型并不能对来自顶端的任务知识进行建模。

核心思想

在日常生活场景中,为了完成某个复杂的物体交互任务,例如泡茶,人们会通过一系列的视线聚焦来注视与任务相关的多个物体并导引交互动作的完成。论文的作者们发现,在完成任务的过程中,人们的注视点并不会一直停留在视野中显著的区域,而是会根据自己正在进行的任务来改变所注视的物体,且注视点的转移与正在执行的任务密切相关。论文第一作者来自东京大学的博士生黄逸飞这样介绍说「正在进行的任务信息对人的注视点的转移有着很重要的影响,举例来说,在将水从瓶子倒入杯子的过程中,人们通常会先注视即将抓取的瓶子,然后在抓起瓶子后将注视点转移到杯口来导引接下来的倒水动作。」

基于对人在完成物体交互任务过程中的视线聚焦行为的观察和发现,此论文提出了一个递归神经网络来对注视点在时间上的转移过程进行建模。值得注意的是,论文所建模的注视点转移并不是单纯的二维图像位置的转移,而是注视点所对应区域的语义信息的转移。考虑到基于图像/视频的视觉显著性模型和基于任务的注视点转移模型在建模方法上具有互补性,论文最后提出了一个混合型的网络架构(细节如下一节所述)将互补的两个模型统一起来,注视点预测性能相比现有的方法取得了显著的提升。

方法架构

图 1:论文提出的注视点预测模型的网络架构

论文提出的注视点预测模型融合了自下而上的基于图像/视频的视觉信息和自上而下的基于任务的高层信息,方法架构如图 1 所示。首先,由于人的注视点通常是向着视野中的显著区域,本文提出的模型首先基于一个自下而上的显著性预测模块(Saliency Prediction Module,SP)。以第一人称视频作为输入,作者采取了 Two stream encoder decoder 的全卷积网络结构,两个 stream 的输入分别为 rgb 图像和光流图像,输出是包含各个图像位置的显著性的热图(heatmap),并使用基于眼部跟踪设备的测量值生成的 heatmap 作为网络训练时的真值(ground truth)。

在人与物体的日常交互活动中,人们并不会一直关注视野中显著的区域,而是会根据自己正在进行的任务来调整关注的物体。因此,作为 SP 模块的补充,作者提出了注意转移模块(Attention Transition Module,AT)来对关注物体在时间上的转移过程进行建模,训练时使用一系列视线聚焦时刻(gaze fixation)的注视点作为训练数据。

最后,作者使用了一个 Late Fusion(LF)模块来融合 SP 和 AT 的结果。LF 模块由一个小型的卷积网络组成,它的输出将作为整个注视点预测模型的最终结果。

注意转移模块(AT)架构

图 2:注意转移模块的网络架构

论文的核心部分-AT 模块如图 2 所示。为了表示注视点所关注的物体的语义信息,一种直接的方式就是找到物体的分类,并学习不同物体分类之间的时间转移关系。但是这种方式需要一个可靠的物体检测和定位方法,由于有限的数据量,目前在第一人称视频的数据集中并没有这样可靠的物体检测和定位方法。为了解决这个问题,作者利用了在深层卷积网络中比较深的卷积层中每一个 channel 都包含了高级语义信息(比如物体分类)这样的一个现象,利用给各个 channel 不同的权重来表示注视点所包含的语义信息。具体而言,AT 模块首先从 SP 模块的 encoder 中提取最后一个卷积层的特征图(feature map),然后根据注视点所在图像的位置截取特征图中的 RoI 区域(Region of Interest),并进行池化Pooling)操作,得到一个表示卷积层不同 channel 权重的向量用于表示当前的注视点。根据一系列注视点的表示向量,论文训练了一个 LSTM 网络,用于根据当前注视点的表示向量预测下一个时刻的注视点的表示向量。使用 LSTM 的预测向量和下一时刻的特征图进行加权平均,即可得到与所进行的任务相关的下一时刻注视点的预测位置。

实验

实验数据集:

本文使用了两个公开的第一人称视觉数据集:GTEA Gaze 和 GTEA Gaze Plus,来评价所提出的注视点预测模型的性能,并使用 AAE (Average Angle Error) 和 AUC (Area under Curve) 两种评价标准。同时,为了检验模型的注意转移学习能力,本文从 GTEA Gaze Plus 中选取并标注了部分数据(简记为 GTEA-sub)来测试模型是否能够正确的预测注意力的转移。

不同方法的性能比较: 

表 1 与不同参照方法在两个公开数据集上的定量比较。本文所采用的方法得到了最高的 AAE 和最小的 AUC,也即意味着最好的注视点预测结果。

不同模块的有效性检验: 

表 2 模型的不同模块在数据集上的表现比较。S-CNN bce 和 T-CNN bce:二元交叉熵(bce)损失函数训练得到的单一 Stream 显著性预测模块;S-CNN 和 T-CNN:作者改进的 bce 损失函数训练得到的单一 Stream 显著性预测模块;SP bce:bce 损失函数训练得到的双 Stream 显著性预测模块;SP:作者改进的 bce 损失函数训练得到的双 Stream 显著性预测模块;AT:注意转移模块。

注视点预测结果的可视化: 

本文提出模型预测得到的注视点的可视化。作者分别展示了显著性预测模块、注意转移模块和完整模型的四组输出 heatmap。每组包含的两张图片分别来自两次连续的注视,其中 a 发生在 b 之前。Ground truth 的 heatmap 通过在注视点坐标周围卷积高斯滤波器得到。由这一可视化结果可以观察到,本文提出的完整模型拥有最接近 ground truth 的预测结果。

交叉任务检验: 

交叉任务检验的定量结果比较。为了检验模型在同一场景的不同任务下的泛化性,本文在 GTEA Gaze Plus 中 7 种不同的食材准备任务下进行了交叉检验,并测试了几种不同实验设定下的注视点转移结果。SP:显著性预测模块的结果,由于注视点转移模块在不同任务下不具有差别,所以被视为一个通用模块,并在一个单独的子集下进行训练,其结果被视作交叉任务检验结果的基准。AT_d:在不同任务下进行训练和测试的注意转移模块的结果。AT_s:在同一任务的两个不同划分下进行训练和测试的注意转移模块的结果。SP+AT_d 和 SP+AT_s:SP 和 AT_d 以及 AT_s 通过 Late Fusion 进行合并之后的结果。

注意转移模块预测性能的可视化: 

注意转移模块在 GTEA-sub 中部分帧下的定性结果可视化。每张图中都包含了当前帧的注视点(红色十字表示)、基于当前帧模型预测的注视点的 heatmap、注视的基准区域/物体(由黄色矩形框出)。

结论

本文提出了一个能够准确预测第一人称视频中的注视点的新方法。作者创新性地提出了一个注意转移模型,该模型通过挖掘视频中注视点的上下文时序信息,来对人在完成特定任务时所关注的物体的时序关系进行建模。通过将这一注意转移模型与一个自下而上的视觉显著性模型进行结合,论文新提出的方法在两个公开的数据集上都取得了最佳的预测性能。值得一提的是,本文提出的注意转移模型不但显著提高了注视点预测的性能,背后的思想对于未来研究如何提高计算机对于复杂任务中人类行为的理解能力具有重要的启示意义。


参考文献

  • Li, Y., Fathi, A., Rehg, J.M.: Learning to predict gaze in egocentric video. In:ICCV (2013)

  • Zhang, M., Teck Ma, K., Hwee Lim, J., Zhao, Q., Feng, J.: Deep future gaze: Gaze anticipation on egocentric videos using adversarial networks. In: CVPR (2017)

  • Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Learning deep features for discriminative localization. In: CVPR (2016)

理论论文计算机视觉ECCV 2018ECCV
1
相关数据
池化技术

池化(Pooling)是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

暂无评论
暂无评论~