何栋梁等作者arXiv选自

百度、MIT等提出StNet:局部+全局的视频时空联合建模


第 33 届 AAAI 大会已于当地时间 1 月 27 在美国夏威夷正式开幕,昨日机器之心报道了 AAAI 2019 的获奖信息。在大会期间,我们将持续为读者们推送有关本次大会的优质论文解读、精彩演讲等。

AAAI 是人工智能领域的国际顶级会议,早期由计算机科学和人工智能创始人 Allen Newell, Marvin Minsky 和 John McCarthy 等人首创,被中国计算机学会(CCF)推荐为 A 类会议。

机器之心了解,国内科技巨头百度共有 15 篇论文被 AAAI 2019 收录。本文介绍了百度联合 MIT 、南京大学等机构共同完成的一篇 spotlight 论文《StNet: Local and Global Spatial-Temporal Modeling for Action Recognition》。论文中提出的StNet架构将在2019年Q1随百度PaddlePaddle深度学习平台视频识别算法库一起对外开源。

论文地址:https://arxiv.org/pdf/1811.01549.pdf

摘要深度学习在静态图像理解上取得了巨大成功,然而高效的视频时序及空域建模的网络模型尚无定论。不同于已有的基于 CNN+RNN 或者 3D 卷积网络的方法,本文提出了兼顾局部时空联系以及全局时空联系的视频时空联合建模网络框架 StNet. 具体而言,StNet 将视频中连续 N 帧图像级联成一个 3N 通道的「超图」,然后用 2D 卷积对超图进行局部时空联系的建模。为了建立全局时空关联,StNet 中引入了对多个局部时空特征图进行时域卷积的模块。特别地,我们提出了时序 Xception 模块对视频特征序列进一步建模时序依赖。在 Kinetics 动作识别数据集的大量实验结果表明,StNet 能够取得 State-of-the-art 的识别性能,同时 StNet 在计算量与准确率的权衡方面表现优异。此外实验结果验证了 StNet 学习到的视频表征能够在 UCF101 上有很好的迁移泛化能力。

以下是对 StNet 的技术概述:

1.    StNet 的输入为均匀采样的 T 个局部连续 N 帧的视频帧。局部的连续 N 帧组合成一个超图,使得超图保留原始视频各个局部的时空信息。均匀采样 T 个超图则保留了原始视频的全局时空信息。

2.    采用 2D 卷积对超图进行局部时空关系的建模,可以避免 3D 卷积网络参数量和计算量大的问题。

3.    通过堆叠 3D 卷积/2D 卷积模块,对 T 个局部时空特征图进行全局时空信息的建模。3D 卷积空间维度的 kernel size 设置成 1 以节省模型参数量与计算量。

4.    对 pooling 出来的 T 个特征向量,不同于简单的取平均操作,本文提出了时序 Xception 模块,进行进一步的时序关系捕获来获取最终的视频特征向量。时序 Xception 模块的设计主要基于时序 1 维卷积,类似 2D 卷积的 Xception 设计,这里采用了 channel-wise 和 temporal-wise 分离的策略以进一步减少计算量与模型参数量。

图 3:时间 Xception 块(TXB)。我们提出的时间 Xception 块的详细配置如(a)所示。括号中的参数表示 1D 卷积的(#kernel,kernel size,padding,#groupss)配置。绿色的块表示 channel-wise 的 1D 卷积,蓝色的块表示 temporal-wise 的 1D 卷积。(b)描绘了 channel-wise 和 temporal-wise 的 1D 卷积。TXB 的输入是视频的特征序列,表示为 T×C_in 张量。通道 1D 卷积的每个卷积核仅在一个通道内沿时间维度应用。Temporal-wise 的 1D 卷积核在每个时间步骤中跨所有通道进行卷积。

表 3:StNet 和几种最先进的基于 2D / 3D 卷积的解决方案的比较。该结果通过在 Kinetics400 和 Kinetics600 的验证集上得到,其仅具有 RGB 模态。

表 4:通过不同模型迁移学习实验实现的平均类别准确率。UCF101 的 RGB 帧用于训练和测试。表中报告了在 UCF101 的三个训练/验证分离上平均的平均类别准确率

理论视频识别MIT百度AAAI 2019AAAI
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
推荐文章
暂无评论
暂无评论~