徐迈、宋宇航、王健伊、樵明朗等作者

TPAMI 2018论文概述 | 在全景视频中预测头部运动:一种深度强化学习方法

作者:徐迈、宋宇航、王健伊、樵明朗等;学校:北京航空航天大学本科生;研究方向:全景视频与强化学习。

本文概述了 2018 年 8 月发表在 IEEE TPAMI 期刊的论文 Predicting Head Movement in Panoramic Video: A Deep Reinforcement Learning Approach。在此论文中,北京航空航天大学本科生宋宇航、王健伊、樵明朗等及其导师徐迈、王祖林,提出了一种基于强化学习的全景视频头部运动预测方法,实现了在离线和在线两种设定下对人类观看全景视频时视野(即:头部运动)预测。论文相关数据库及代码均已开源。

背景

在观看全景视频的时候, 人们通过对头部运动(HM)的控制使自己能够自由地控制视野(FoV),从而产生身临其境的交互式体验。因此,HM 在人类对全景视频的注意力建模中起着关键作用。

本文首次建立了一个收集全景视频注意力的数据库(图 1),采集了被试者在全景视频序列上的 HM 位置。从该数据库中,论文发现 HM 数据在不同被试者中高度一致。

▲ 图1. 本文首次建立的一个收集全景视频注意力的数据库(部分)

据此,论文首次提出应用深度强化学习(DRL),最大化智能体与人类行为的一致性,进而来预测 HM 位置是一个合理的预测全景视频注意力模型的方法。

根据论文的研究结果,论文提出了一种基于 DRL 的 HM 预测方法(DHP),该方法有离线和在线两个版本(图 2),分别称为离线-DHP 和在线-DHP。

在离线-DHP 中,论文运行多个 DRL 工作流以确定每帧可能的 HM 位置。然后,生成热点图作为 offline-DHP 的预测输出。在在线-DHP 中,论文给定当前观察到的 HM 位置,来估计被试者的下一个 HM 位置。

最后,实验结果验证了论文的方法可有效地预测全景视频的注意力,并且离线-DHP 模型可以有效地提升在线-DHP 的性能。

▲ 图2. 全景视频注意力的离线和在线模型

离线-DHP

论文首先提出了离线-DHP 算法。因为观看者根据全景视频内容控制头部运动、产生头动轨迹,论文提出的离线-DHP 方法通过预测多个智能体(agent)的头动轨迹产生全景视频的显著性热点图(图 3)。

▲ 图3. 离线-DHP算法的整体框架

首先,基于论文的数据库中,我们发现:

1. 不同观看者的头动轨迹高度一致;

2. 观看者的视野以较高概率出现在视频中心(精度、维度均为 0);

3. 观看者下一时刻的观看位置可以由当前时刻观看位置预测。

根据这些发现,论文提出的离线-DHP 方法通过强化学习预测多个观看者的头动幅度和方向来预测下一时刻的头部位置。在训练中,建立强化学习的回报函数(reward function),旨在衡量的智能体和观看者头动之间的行为差异,即智能体的头动与人类头动位置的一致性。进而通过深度强化学习获得头动预测模型;在多工作流的头动模型下,可产生多个头动轨迹,进而生成热点图和显著性图。

在线-DHP

接下来,论文提出了在线-DHP 算法。在线-DHP 算法旨在根据某个特定观看者的历史头动轨迹预测其下一帧的头动位置。整个过程分为训练和预测两个阶段。

首先,利用历史轨迹对深度强化学习网络的参数进行微调,之后利用训练好的深度强化学习网络来预测下一帧的头动位置。其在线-DHP 包括训练和预测两个步骤,流程图如图 4 所示。

▲ 图4. 在线-DHP算法的整体框架

实验

对于离线-DHP,选用了 15 个视频作为测试集。论文采用了 3 个常用的标准对预测结果进行评估:CC、NSS、sAUC。实验结果表明论文提出的方法在 3 个标准下的表现都明显优于对比算法。 

此外,论文展示的主观实验结果表明:论文提出的 DHP 算法生成的头动热点图与真实的人类头动热点图接近。可见,离线-DHP 能够更有效的预测不同人在观看全景视频时的头动位置。

对于在线-DHP,论文对比了当前最新的算法。实验结果表明:论文提出的在线-DHP 优于其他比对算法。此外,实验还验证了使用离线-DHP 的模型对在线 DHP 算法进行初始化,可有效提升全景视频的在线头动位置预测的精度。

综上所述,论文提出的方法可有效地在线/离线预测人类观看全景视频的头动位置(即:视野)。

结论

本文是最早揭示人类观看全景视频机理的工作之一,在未来,可提升全景视频的压缩、渲染等处理任务的有效性,有着广泛的应用场景。

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论强化学习计算机视觉视频行为预测
3
暂无评论
暂无评论~