在本文中,我们将时空融合策略嵌入到预先定义的概率空间,使我们能够对任意多种融合策略进行网络级评估,而不必分别训练它们,极大地提高了针对时空融合策略的分析效率。
在基于深度学习的众多视频应用中,例如动作识别、视频标签和人员重新识别,时空特征融合是不可或缺的组成部分。以动作识别为例,深度网络中的时空融合大致可分为两大类:1,两路(Two-stream)形式的融合/集成,例如自然图像帧中的空间语义信息与光流场中的运动信息独立提取后相互结合;2,单一三维卷积神经网络(3D CNNs)中时空信息的交互与融合。本文主要关注于后者上。
从概念上讲,三维卷积神经网络能够很好地学习视频内容的时空特征,然而,根据最近的研究显示,其性能仍然对不同的时空融合策略十分敏感。现有的针对时空融合的分析工作通常经验性地设计不同的融合策略,并根据相应的性能表现来进行分析总结。由于每种策略都需要进行单独的训练和评估,以及现有解决方案很难针对大量融合策略进行分析评估,同时也无法支持细粒度的层级分析。
为了提高分析效率,本文提出从概率的角度分析三维卷积神经网络中的时空融合。具体而言,我们将时空融合分析建模为一个优化问题,旨在将每个单独的融合策略均视为随机事件并嵌入到一个满足以下两个性质的概率空间:1,可以从概率空间低成本地得到每个时空融合策略(事件)的性能,因此我们可以基于该性能来评估不同融合策略,而不必分别训练每个策略;2,能够通过该概率空间推断出时空融合的局部性偏好,从而可以对融合策略进行逐层的细粒度分析。算法框架如下图所示:

进一步地,我们通过观察发现,由融合策略和其对应的网络参数权重的联合后验分布所定义的概率空间能够很好地满足上述两个性质。为了高效地将时空融合策略嵌入到该概率空间,我们借鉴 Variational Dropout,提出了 Variational DropPath, 通过对模板网络(template network)进行端到端的训练,来完成嵌入过程。其中,模板网络是混合了不同的时空融合策略的超网络,并可通过 DropPath 操作得到采用不同混合策略的子网络,如图2所示:


近似等价于最小化:KL(Q(ω,M)||P(ω,M|X,Y)) 。其中 M 和 ω 表示时空融合策略以及对应的网络参数权重;p 表示 DropPath 的概率;N 为总样本数;ϵ 为依 p 采样得到的二值掩码(Binary mask),l、i、u 为模版网络中当前层数、使用的特征图的所属层数以及基本时空融合单元的索引;Q 为分解(factorize)在不同基本时空融合单元上的变分分布(variational distribution)。
上述近似等价关系表明,通过对模板网络的训练,我们可以将不同时空融合策略嵌入到由后验分布定义的概率空间。当训练完成后,从概率空间采样不同的时空融合策略以及其对应的网络参数等价于按照收敛后的 DropPath 概率从模板网络采样不同的子网络。由于策略是和其对应的参数权重成对进行采样的,故可以直接在验证集上对该策略进行测试得到性能作为评价指标。同时,我们还可计算网络中每一层不同融合单元的边缘概率分布,作为细粒度的时空融合偏好评价指标:
图3:计算网络中每一层不同融合单元的边缘概率分布
图3中红点代表采样得到性能(分类准确度)最高的一组样本的具体时空融合策略,柱状图表示每一层使用不同时空融合单元的边缘分布,它能够反映出每一层哪些融合单元更倾向于被使用。综合这两组信息我们可以在针对不同性质的数据集设计不同的融合策略。为了验证本文方法的有效性和普适性,我们在四种不同类型的动作识别数据集上做验证实验,它们分别是 Something-something V1、Kinetics400、Something-something V2 和 UCF101。实验设计主要验包含两个部分:1,是否能够从概率空间得到比现有方法性能更好的时空融合策略;2,根据上述两组信息总结得到的规律,是否能适用于不同的主干网络(backbone network)。
对于第一点,我们将采样得到的性能最好的样本与其它基于三维卷积神经网络的 state-of-the-art 方法进行对比,发现无论从模型复杂度还是分类准确行上,都取得了最佳成绩,如表1:
表1: 性能检验对于第二点,我们在不同数据集上根据对采样情况以及边缘分布的观察,总结得到融合偏好的规律,并将其应用到不同的主干网络中去,发现能够给绝大多数主干网络带来可观的性能提升,说明我们的分析方法可以帮助得到泛化性能非常好的观察与规律。具体如表2:

作为总结,本文我们将分析三维卷积神经网络中时空融合的问题转换为优化问题,旨在将所有可能的融合策略嵌入到由融合策略和其对应的网络参数权重的联合后验分布所定义的概率空间中。这样的概率空间使我们能够从概率的角度去研究时空融合,无需单独的网络训练就可以评估和分析各种融合策略,且可以提供细粒度的局部偏好。我们进一步提出 Variational DropPath,使得端到端地训练模板网络即可有效地解决上述优化问题。通过在四个动作识别数据库上的对比实验,证明了这一方法的有效性和普适性。
更多细节请参考原文和附录:
https://arxiv.org/pdf/2004.04981.pdf
实验代码请参考 GitHub 目录:
https://github.com/scenarios/Probabilistic3DCNN