Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Adobe Research专栏

ICCV 2021 | Adobe提出短视频集锦自动生成新方法,准确度提升4%~12%

Adobe Research 的研究人员提出一种针对以人为主体的视频的自动高亮集锦生成的方法,在无需任何人工注释和用户偏好信息来完成训练的前提下,该方法比现有最优方法在匹配人工注释的准确度上提升了 4%~12%。

以人为中心的视频是关注人类执行和表达活动、任务和情感的视频。这种类型的视频极大地促进了离线和在线个人和共享媒体的快速增长。这些视频来自多个领域,如业余体育和表演、讲座、教程、视频博客(vlog),以及个人或团体活动,如野餐、假日旅行。然而,未经编辑的以人为中心的视频也往往包含大量无关和无趣的内容,需要对它们进行编辑和标记,以便高效浏览。

为了解决这个问题,许多方法探索了自动检测高亮片段或摘录和总结视频的技术。对于未经编辑的镜头,高亮检测的目的是获取预先定义的兴趣时刻,而提取概要的目的是计算最相关和最有代表性的摘录。检测有效的高亮内容不仅可以加快浏览速度,还可以提高高亮内容被分享和推荐的几率。现有方法通过有监督学习来实现这样的高亮检测,但必须依赖于:人工标记的高亮片段,或不同高亮类别的示例。另外,这些方法并没有明确地模拟人类活动或人际互动,而实际生活中大部分视频的主要焦点都与此密切相关。

能否在无需人工注释的前提下,生成对以人为中心的视频的高亮集锦?近日,我们提出了一种针对以人为主体的视频的自动高亮集锦生成的方法,在无需任何人工注释和用户偏好信息来完成训练的前提下,该方法比现有最优方法在匹配人工注释的准确度上提升了 4%~12%。该工作已被 ICCV 2021 接收。

论文链接:https://arxiv.org/pdf/2110.01774.pdf

如希望进一步交流,欢迎联系作者:

Gang Wu (gawu@adobe.com), 

https://wugangwu.github.io

在这篇论文中,我们提出了一种领域和用户偏好无关的方法来检测以人为中心的视频中的高亮片段。我们使用基于图表达的方法作为视频中多个可观察到的以人为中心的模式,如姿势和面孔。我们使用一个配备了时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交互。我们基于帧的代表性训练我们的网络,从而将不同模式的基于活动和交互的潜在结构表示映射到每帧的高亮得分。我们使用这些分数来计算突出哪些帧,并结合相邻帧来产生摘录。我们在大规模动作数据集 AVA-Kinetics 上训练我们的网络,并在 DSH、TVSum、PHD 和 SumMe 四个基准视频高亮数据集上评估网络。在这些数据集中,与最先进的方法相比,我们在不需要任何用户偏好信息或对新数据集调参的情况下在匹配人工标注的高亮上的平均精度上提高了 4%-12%。

1. 引言

以人为中心的视频是关注人类执行和表达活动、任务和情感的视频 [62,50]。这种类型的视频极大地促进了离线和在线个人和共享媒体[8] 的快速增长。这些视频来自多个领域,如业余体育和表演、讲座、教程、视频博客(vlog),以及个人或团体活动,如野餐、假日旅行。然而,未经编辑的以人为中心的视频也往往包含大量无关和无趣的内容,需要对它们进行编辑和标记,以便高效浏览[47]。

图 1:使用以人为中心的模式检测高亮摘录。我们的方法利用了多种以人为中心的模式以检测亮点,例如,可以在关注人类活动的视频中观察到的身体姿势和面部。我们使用每个模态的二维或三维互联点表示来构建一个时空图表示来计算高亮分数。

为了解决这个问题,许多方法探索了自动检测高亮片段或摘录和总结视频的技术 [11,53,42,63,44,67]。对于未经编辑的镜头,高亮检测的目的是获取预先定义的兴趣时刻,而提取概要的目的是计算最相关和最有代表性的摘录。检测有效的高亮内容不仅可以加快浏览速度,还可以提高高亮内容被分享和推荐的几率[53]。现有方法通过有监督学习来实现这样的高亮检测,但必须依赖于:人工标记的高亮片段[47,11],或不同高亮类别的示例,例如,从滑雪图像学习来检测视频中的滑雪高亮片段[23,25]。其他方法通过学习每一帧或拍摄相对于原始视频[36] 的代表性,并利用视频元数据,如持续时间 [53] 和拍摄 [67,64] 的相关性,从而消除了监督的需要。所有这些方法要么假设或符合未编辑片段的一些特定领域的知识,例如,跑步和跳跃可能在跑酷视频中更相关,而滑动动作可能在滑雪视频中可能更相关。其他方法不考虑特定领域的知识,不用检测个性化的亮点[42],而是考虑多个用户预先记录的偏好。

无论它们是假定特定领域的知识还是用户偏好,现有的方法都可以在构成视频的帧或镜头的二维图像空间中工作。最先进的基于图像的网络可以学习丰富的语义特征,捕获图像中各种检测对象之间的相互关系,从而实现有效的高光检测。然而,这些方法并没有明确地模拟人类活动或人际互动,而这些都是以人为中心的视频的主要焦点。与此同时,开发以人为中心的视频的方法对于各种任务至关重要,包括表达和情绪识别 [34,2,38]、活动识别[56]、场景理解[50,32]、人群分析[51]、视频超分重建[32] 和基于文本的视频捕捉[48]。这些方法表明,以人为中心的视频需要与普通视频分开处理,通过利用以人为中心的模式,如姿势和面孔。因此,这表明了将以人为中心的视频理解机制带到高亮检测任务中的余地和必要性。

我们开发了一个端到端学习系统,它可以检测以人类为中心的视频中的高亮显示,而不需要特定领域的知识、高亮显示注释或示例。我们的方法利用通过多种感觉通道或方式表达的人类活动和互动,包括面孔、眼睛、声音、身体姿势,手势[1,38]。我们对所有以人为中心的模式使用基于图的表达方式,来充分表示每个模式的固有结构包括各种活动和交互是如何随着时间的推移而演变的。我们的网络使用时空图卷积从这些基于图的表示中学习,并使用自动编码器架构映射每帧模式到高亮分数。我们的高亮分数是基于视频中所有帧的代表性,将连续的帧拼接在一起,通过产生最终的摘录来得到的。我们的新贡献包括:
  • 使用以人为中心的模式的高亮检测。我们的方法在每个输入视频中识别可观察到的模式,如姿态和面孔,并将它们在时间和不同人的相互关系编码为高亮分数,用于高亮检测。

  • 高亮分数的无注释训练。我们不需要突出显示注释、示例、用户偏好或特定于领域的知识。相反,我们只需要使用现成的模式检测技术来检测一个或多个以人为中心的模式来训练我们的高亮分数。

  • 与域和用户无关的性能。我们训练过的网络在由以人为中心的视频组成的多个基准数据集上进行评估,并在不同领域和用户偏好上的高亮检测方面实现了最先进的性能。

我们的方法在基准特定领域的视频高亮 (DSH) 数据集 [47] 和个人高亮检测数据集 (PHD2)[11] 数据集上匹配的人工注释高亮片段的平均精度分别为 0.64 和 0.20,比相应的现有方法高出 7% 和 4%(绝对值)。我们还在 TVSum[46]和 SuMMe[15]较小基准数据集上实现了最先进的性能,在平均精度和平均 F 得分上分别比目前最先进的基线方法高出 12% 和 4%(绝对值)。即使对于不完全以人为中心的领域(例如,狗展)或未检测到足够以人为中心的模式的视频,我们方法的性能也可与当前最先进方法相媲美。

2. 相关工作

视频摘要的突出检测和密切相关问题已经在计算机视觉、多媒体和相关领域得到了广泛的研究。早期的方法使用了包括基于可视化内容的聚类、场景转换图、帧 [59,6,49] 的时间方差和表示语义信息的手工特征,如面部活动 [20] 的各种技术。另一方面,最近的方法利用了一系列令人印象深刻的深度学习工具和技术来实现高亮检测和视频总结。

高亮检测。高亮检测的目标是检测视频感兴趣时刻或未经编辑视频的摘录 [49,47]。大量方法将此视为监督排名问题,因此高亮摘录的排名高于所有其他摘录[47,17,58,18,11,60,19,52]。这些方法假设了高可读摘录的人类注释标签的可用性,并训练网络学习与这些标签相关的通用或特定领域的排名指标。另一方面,弱监督和无监督的高光检测方法通过利用示例或视频元数据,消除了标签依赖性。这些样本包括描绘了特定领域的动作的网络图像,如体操和滑雪[25]。视频元数据包括关于视频类别[57] 的信息,或有助于区分未编辑视频和编辑视频的属性,例如持续时间[53]。一些方法还考虑到用户的偏好来生成个性化的亮点[42]。所有这些方法都在每一视频帧的二维图像空间中执行计算,并且不使用以人人为中心的模式。

视频摘要视频摘要的主要目标是提供各种格式的简洁的视频合成,包括故事线图 [24,54]、关键帧序列[30]、剪辑[15,64],以及基于用户需求[14] 的混合物。视频摘要通常被认为是一个满足一致性 [35]、多样性,和代表性[40,67] 的无监督子序列估计任务。无监督摘要方法建立在多个概念之上,如视觉共现 [7]、视频帧和镜头之间的时间相关性[23,36,44,64]、学习类别感知分类器[41] 和类别感知特征学习 [66,46]。其他方法采用弱监督的方法,使用范例网络图像和视频[24,22,4,43],以及类别描述[41,40] 作为先验。然而,另一些方法使用监督学习与人类注释的摘要,使用子集选择 [13]、视觉重要性评分[30,15]、子模块混合[16,55] 和时间相互关系[63,64,65]。虽然我们的目标是高光检测,但我们的方法受到这些视频摘要方法的启发。特别是,我们确保我们的亮点分数捕捉到了视频中的代表性并能够进行稳健的特征重建。

多模态学习大量工作都集中在多模态动作识别 [5,45,33,10] 和情绪识别 [3,26,61,38,39] 上。这些方法观察并结合了来自多种人类表达方式的线索,包括面部、姿势、声调、眼球运动、手和身体手势和步态。现有方法通常使用点和图 [33,3,38] 对观察模式进行建模,使它们适合学习动作和情绪的特征。在我们的工作中,我们利用了这样一个事实,即以人类为中心的视频的高摘录可以根据这些模式来确定。根据多模态动作和情绪识别 [33,38] 的最新趋势,我们还将视频中各帧中观察到的模式建模为时空图,并利用它们来学习我们的高亮分数。

3. 多模式高亮检测

对于以人为中心的视频,我们的目标是从视频中检测出感兴趣的时刻或亮点。本节详细介绍了我们如何通过利用从视频中观察到的以人为中心的模式来检测这些亮点。

3.1. 人类中心模式

在我们的工作中,我们使用术语 “模式” 来暗示对人类活动和交互作用敏感的人类表达通道,例如,面孔、眼睛、身体姿势、手、步态 [5,38,39]。活动由个体的表达和互动构成,包括与他人、其他生命和无生命的物体的互动,并与各种行动[56,10] 和情绪 [2,39] 有关。我们认为人类更喜欢以人类为中心的视频,来关注这些活动和互动。因此,我们的目标是从我们的网络中观察到以人类为中心的模式进行学习。对于检测到的每个人的模态,我们的网络利用不同时间实例的相互关系以及不同人之间的相互关系来检测最具代表性的摘录。

当我们从视频帧的 RGB 图像空间表示中提取这些模式时,我们注意到这些模式比一般的图像空间表示更能捕获到丰富的视频帧语义信息。图像空间表示建立在图像不同部分之间强度差异的变化基础上,而没有对不同部分如何相互作用进行理解。另一方面,模式提供了基于其结构的互动洞察,例如,利用手臂和腿的相对动作来表示某些动作,以及各种面部标志的相对运动来表示某些表情和情绪。我们建立我们的网络来明确地考虑每个模态的结构,以及这些结构包括活动和相互作用随着时间的演变。

我们考虑从输入视频中可观察到的 M≥1 的以人类为中心的模式。我们假设这些模态是使用标准的模态检测和跟踪技术 [29,12] 提取的,并使用一组二维或三维的互联点来表示,例如一组二维面部地标或一组三维身体关节的姿势。

为了表示每个模态 m=1,…,我们构建了一个时空图表示 Gm={Vm,Em}。Vm 中的节点表示相应模态的点,Em 中的边表示模态的结构以及该结构如何随时间的演化。为了充分捕捉到这一点,我们考虑了三种边类型:
  • 人内边捕捉单个人节点之间的空间关系,例如,姿势关节之间的骨骼和面部地标之间的连接器。这些边代表了在每个视频帧上模态的基线结构。

  • 人际边连接每个视频帧中不同人的相同节点,例如,根到根、头对头。这些边捕捉了不同人的节点相互交互关系。它们为每一对人形成一个二部图,表示每个视频帧上的人际交互。

  • 同时边是一个人在多个视频帧上连接的相同节点,例如,根到根、头对头。这些边捕捉了每个人的节点是如何随着时间而演变的。它们为每一对视频帧形成一个二部图,表示活动和交互随时间的演变。

这些节点的空间位置和所有这些边的组合使我们的网络能够学习视频中所有人类的活动和互动,并相应地学习高亮分数,而不需要任何关于视频领域或用户提供的偏好的先验知识

3.2. 视频帧的代表性

由于我们的目标是在不需要注释或示例的情况下检测视频中的亮点,因此我们的方法与检测视频中的代表帧一致,类似于视频摘要中已完成的工作 [36, 14]。虽然检测图像空间中的代表帧有可能或没可能有利于检测视频的感兴趣时刻[47],但我们观察到,事实上检测以人为中心的模式空间中的代表帧,是有利于在以人为中心的视频中检测感兴趣时刻。

我们将视频帧的代表性定义为在某个度量空间中,视频和没有该帧的视频之间的差异。差异越大,该框架的代表性就越高。直观地说,帧的代表性衡量它包含的与整个视频相关的信息的比例。我们在高亮检测方面的目标是从具有最大代表性的视频中检测到最小的帧集。

图 2:代表性。我们展示了不同视频帧在姿态(左)和地标(右)计算的不同代表性值。我们根据代表性来学习高亮分数。

在我们的工作中,我们测量了可观测模式的度量空间中的代表性。图 2 显示了姿态和地标空间中不同代表性值的视频帧示例。我们认为每个视频都由一个总的 T 帧和 P 人组成(具有较少的帧和人的视频是适当的用零填充的。因此,对于每个模态 m,Vm 总共由 N×T×P 节点组成,其中 N 为每人的节点数。我们将这些节点整理成一个张量,其中是指每帧 t,D 是每个节点的空间维数,最常见的是 2 或 3。接着,我们可以将高亮分数置为 0 或 1 以反映每帧 t 的代表性。因此,我们可以将净差值 D 作为将高亮值写为,

(1)

其中表示Hadamard的结果。我们现在可以将我们的目标重写为公式 1 中的最小化D。同时对于每个模态m也最小化。我们注意到方程的一个平凡的解。1 是选择一个阈值 0≤τ≤T,然后从 Xm 中最具代表性的顶级 τ 的高亮分数为 1,对所有其他帧的高亮分数为 0。然而,选择 τ 并不简单,在实践中需要从数据中学习。因此,我们训练了一个基于自动编码器深度神经网络来学习广泛数据的高亮分数。我们还允许高亮分数在[0,1]中是连续的,以保持我们的网络的可微性。此外,使高亮分数连续也有助于我们理解每一帧的相对代表性,这是现代高亮检测系统[53,42]的一个内置组件。

3.3.  网络架构

图3显示了我们用于预测从输入视频中得到高亮视频片段的整体网络架构。我们网络的目标是学习每一帧高亮的分数,以最小化一个类似公式1的形式。我们的网络通过采用可观察的每帧基于图的表示来实现这一点。它试图使用尽可能少的输入模式的帧来重建视频中的所有活动,即加权重建,其中权重是高亮的分数。在训练过程中,我们的网络学会了为具有更高代表性的帧分配更高的高亮分数。我们将详细描述我们的网络架构。

图3:使用以人为中心的模式的高亮检测:我们的学习网络概述,突出显示来自多种以人为中心的模式的分数。我们使用标准技术[29,12]来检测以人为中心的模式。我们将这些模式表示为二维或三维中的连接点集合。我们并行地训练所有模式的网络。网络之间唯一的交互点是他们预测的高亮分数,我们将其合并到我们的加权高亮分数中进行训练。

我们的自动编码器架构由一个编码器、一个得分器和一个解码器组成。我们的编码器从一个输入视频中获取每个可观察模态m的时空图表示。它使用一个单独的时空图卷积网络(STGCN)[56,28,9]将每个模态m的转换为基于潜在活动的特征,Dl是潜在特征中每个节点的维数。因此,我们有了如下操作,

其中,表示由得到的邻接矩阵,由编码器中的一组可训练的STGCN参数组成。我们在这里注意到数据形成了一个全秩张量,因此STGCN避免了将0的退化解分配给所有

我们基于活动的潜在特征连接到我们的得分器,它由一层时空图卷积组成,然后是每个模态的s型操作。我们的得分器将每个转换为每个节点的标准化高亮分数,即,

(3)

其中表示s型函数,由可训练STGCN参数组成。

我们的解码器采用基于潜在活动的特征和每个模态m的亮点得分,并通过与每个节点形成的 Hadamard 积来产生加权潜在特征的维数,即

(4)

换句话说,我们的目标是选择中对应于中最具代表性的帧的潜在特征。在训练过程中,我们的得分器成功地学会了将更高的值分配给代表更具代表性帧的特征,并在重建过程中有利于它们。

从加权潜在特征中,我们的解码器使用另一个STGCN生成输入图节点的重建,即

(5)

其中由解码器中的一组可训练的STGCN参数组成。

3.4.  训练损失函数

类似于公式1,我们训练我们的网络架构,以最大限度地重构所有模式下的输入图节点,同时最小化考虑用于重构的帧数。我们的方法是基于这样一个假设,即具有更高代表性的视频帧,构成了更清晰的视频摘录。因此,实际上我们的目标是在输入视频的重建中抑制尽可能多的帧,同时只强调具有高代表性的帧。

给定每个模态的突出分数,我们执行所有维度的最大的分数池,但获得,该模态视频的每帧的最大突出分数,即

(6)

我们还考虑了每个模态m的加权贡献,这样权重就与输入视频中模态可见的帧数成正比。如果该模态的一半以上的组成点在帧中可见,那么我们定义一个模态在帧中是可观察到的。根据这个定义,我们为每个模态m构造一个权值

(7)

注意,因为每一帧可以包含无和所有模式之间。

紧接着,我们为视频的所有帧构造加权突出显示分数作为

(8)

最后,给定解码器重建和每个模态的权重,我们构建我们的损失函数 L来训练我们的网络

(9)

其中合并所有可训练参数正则化因子。

4. 实施和测试

我们在大规模的AVA-Kinetics数据集[31]上训练我们的网络。该数据集由235个训练视频和64个验证视频组成,每个15分钟,并在1秒的剪辑中标注动作标签。我们忽略了动作标签,并使用原始视频来训练和验证我们的高亮检测网络。该数据集由各种各样的人类活动组成,但没有监督一些精彩的摘录。因此,它适合于我们的学习任务,以检测人类特有的突出显示摘录。由于内存限制,我们以30秒不重叠的节录处理每个视频,总共有7050个训练节录和1920个验证节录。

4.1.  实施

我们使用M = 2的模式、姿态和人脸,这是我们在所有数据集中测试我们方法最容易观察到的两种模式。其他模式,如手势和眼球运动,要么很少可见,要么有噪声检测。我们根据CMU泛视模型[21,37]建立姿态图,并根据Geitgey[12]的面部地标模型建立面部地标图。

我们使用最先进的多人跟踪器[29]来跟踪所有视频帧中的人,并用最先进的姿态探测器[37]和面部地标探测器[12],来分别检测他们的姿势和面部地标。

为了给每个模态构建图,我们考虑了每一帧中最多P = 20的人,并考虑了结合过去和未来的时间边到30f的时间相邻帧,f是处理视频的帧率。当可用时,我们在过去和未来使用相同数量的帧来进行时间邻接。我们已经观察到了在2到5帧率的准确性和内存需求方面的有效性能,在我们的实验中使用帧率f=5。

我们使用Adam优化器[27]训练200轮,批处理尺寸大小为2,初始学习率为10-3,动量为0.9,权重衰减为10^-4。在每轮训练之后,我们的学习率都会降低0.999倍。在英伟达GeForce GTX 1080Ti GPU上大约需要40分钟,总训练时间约为4.6个GPU天数。

4.2.  测试

在测试时,我们根据公式8得到输入视频所有帧的加权突出显示分数。我们将高于某个分数阈值的所有连续帧组合起来,以生成视频精彩片段。我们还可以使用类似于[44]的方法连接摘录来创建基线视频摘要。根据我们的实验结果,我们观察到当≥0.5能够检测到基准数据集中具有代表性的高光片段。

在实践中,我们将通过提供一种机制来对摘录进行排序,将给定视频的最终选择留给用户。我们为每个高亮片段分配一个分数,即其每个组成帧的加权高亮分数的平均值。我们根据这些分数对摘录进行排序,这样用户就可以选择自己的阈值来获得超过这些阈值的摘录。他们选择的阈值越高,在阈值下存活下来的摘录就越少,从而减少了他们筛选较不具代表性摘录的人工工作量。

5. 实验

我们在两个大规模的公共基准数据集上评估了我们的方法和目前最先进的视频高亮检测方法的性能:领域特定重点(DSH)数据集[47]和个人重点检测数据集(PHD2)[11]。我们还在较小公共数据集TVSum[46]和SumMe[15]上进行了评估。然而与当前任何方法不同的是,我们都没有在这些数据集上训练或微调我们的方法。我们还通过从训练和评估中删除单个模式来测试我们网络消融版本的性能。

5.1.  数据集

DSH数据集[47]由YouTube上横跨六个特定领域类别的视频组成:狗的表演、体操、跑酷、滑冰、滑雪和冲浪。每个域中大约有 100个视频,总时长约为 1,430 分钟,大约有 600个视频。PHD2数据集[11]的测试集由总共约10万个YouTube视频组成,总计约55800分钟,由850名用户根据其偏好标注的高光片段组成。更小一些的TVSum数据集[46]有50个YouTube视频,总计约210分钟,横跨10个领域:养蜂(BK)、自行车技巧(BT)、狗展(DS)、闪耀(FM)、梳理动物(GA)、制作三明治(MS)、游行(PR)、跑酷(PK)、车辆轮胎(VT)和车辆松开(VU)。SumMe数据集[15]只有25个个人视频,总计约66分钟。

5.2.  评估指标

我们使用与相应视频中注释高光匹配的检测高光的平均精度(mAP)来评估所有方法。平均精度是评价高光检测[47,17,11,53,42]的常用度量。我们注意到,在评估高亮的情况下,每个视频的精度需要单独考虑,而不是跨视频考虑。这是因为从一个视频中检测到的高亮片段不一定比另一个视频[47]的非高亮片段有更高的高亮分数。我们还报告了我们的方法在所有数据集和基线方法在SumMe数据集[15]上的平均F分数(精度和召回率的谐波平均值,通过计算所有视频上数据的平均值得到)。

5.3.  基线方法

我们与DSH数据集[47]上的4个基线、PHD2数据集[11]上的4个基线、TVSum数据集[46]和SumMe数据集[15]上的7个基线进行了比较。我们报告了如文献中所述的基线方法的性能。

在DSH数据集上,我们与Sun等人的潜在基于SVM的高亮排序方法(LSVM) [47]、使用具有完全连接层学习的C3D特征进行高亮排序的Video2GIF方法[17]、Yang等人基于无监督鲁棒循环自动编码器的方法(RRAE) [57]和Xiong等人的方法(越少越多)[53]进行了比较。Xiong等人的方法通过使用视频的持续时间作为弱监督标签来学习对高光进行排序,并认为较短的视频更有可能被编辑,从而更容易曝光。

在数据集PHD2上,我们再次与方法Video2GIF [17]进行比较,使用GoogLeNet的完全卷积序列网络(FCSN)来学习基于图像的特征来高亮检测[44],以及自适应FCSN方法(ADFCSN)[42],它还包括一个历史编码器来适应用户的历史重点偏好来检测个性化的亮点。我们还依据[42]使用一个完全随机的高亮检测器作为最低基线方法。

在TVSum数据集上,我们再次与基于持续时间的高光检测方法(LessisMore)[53]、Chu等人基于视觉相关的使用最大双峰发现(MBF)来获得与原始视频相关并发镜头的方法[7]、Potapov等人基于内核在语义一致的片段上训练SVM的视频总结方法(KVS)[41]、Panda等人的使用共识正则化器来检测满足稀疏性、多样性和代表性的突出显示片段的协作视频总结方法(CVS) [40] 以及马哈塞尼等人的使用具有对抗性损失的LSTM(Adv-LSTM)无监督视频总结方法[36]进行比较。

在SumMe数据集上,我们再次比较了Gygli等人[15] 基于兴趣度总结的(Int.)自适应FCSN(Ad-FCSN)[42]、Gygli等人[16]基于子模块化的总结方法(Sub.)、Zhang等人[63]采用行列式点过程(DPP-LSTM)的LSTM网络、基于 GAN 和额外监督 (GAN-S)的方法[35],Zhou 等人基于深度强化学习的具有额外监督的方法(DRL-S) [67]以及使用编码器-解码器体系结构从序列数据中检测具有高度相关性片段的检测方法(S2N)[52]。

5.4. 结果

DSH[47]和TVSum[46]。我们分别在表1和表3中报告了DSH和TVSum数据集中所有域的mAP。除在少数领域之外,我们的方法都优于基线方法。这些非最优的领域要么不是完全以人类为中心(养蜂、狗展、梳理动物和制作三明治),要么由于在视频中没有检测到足够的姿势和脸而使我们的方法受到阻碍(DSH中的冲浪视频)。然而在这些非最优表现的领域上,我们的方法仅次于表现最好的基线方法。平均而言,在所有领域中,我们的方法比性能最好的基线方法高出4%-12%的绝对值。

PHD2[11]。我们在表2中报告了跨数据集的mAP。考虑到在这个数据集的视频中检测到大量的人类数量,我们的方法比表现最好的基线方法高出4%。

SumMe[15]。我们在表4中报告了整个数据集的平均F分数。按照之前的方法[52,42],我们随机选择20%的数据集来计算平均F分数,重复这个实验5次,并报告平均性能。基于这些实验,我们比表现最好的基线方法高出4%的绝对值。这些结果表明,我们使用以人为中心的模式来检测高亮的方法在所有基准数据集上表现出了最先进的性能。

表1:在DSH数据集[47]上的平均精度。粗体:最好,下划线:第二好。我们方法在冲浪领域表现第二好,因为没有检测到足够的姿势和面孔,而在所有其他领域表现最好。

表2:PHD2[11]的平均精度。粗体:最好,下划线:第二好。

表3:TVSum数据集[46]上的平均平均精度。域名的完整形式见第5.1节。粗体:最好,下划线:第二好。我们的方法在不完全以人类为中心的领域(BK、DS、GA、MS)表现第二,在所有其他领域表现最好。

表4:SumMe数据集[15]上的F分数。粗体:最好,下划线:第二好。

5.5. 消融研究

在我们的工作中,我们考虑了两种模式,姿势和面孔。我们依次废除这两种模态,并通过在剩余的模态上训练网络来测试我们方法的性能。我们在表5中报告了我们方法的消融版本在所有四个基准数据集的视频中的平均mAP和平均F分数。

表5:在基准数据集上,我们的方法的不同消融版本的平均mAP和平均f分数的比较。粗体:最好,下划线:第二好。

我们观察到与使用这两种模式相比,仅使用姿势而不使用人脸的方法在数据集中平均 mAP 的绝对值下降了 5%-7%,平均 F 得分下降了 3%-8%。然而,我们观察到只使用面孔而不使用姿势的方法,造成更严重的下降,平均mAP的绝对值下降4%-13%,平均F分数下降2%-13%。这是因为姿势在以人为中心的视频中更为丰富,而且比面部地标更容易被检测到。例如,即使人类被部分遮挡,在黑暗环境中或被不清晰聚焦时,姿势也可以被检测到,而检测到面部标志需要面部有良好的光线和聚焦。因此,不检测姿势造成大量的摘录损失。这一趋势只在PHD2中发生逆转,因为在那里面孔比姿势更容易被检测到。

我们还在图5中展示了我们的方法及其所有消融版本在DSH、PHD2、TVSum和SuMMe四个数据集中的一个样本视频的定性性能结果。我们可以看到,当只观察姿势而不是面孔时,我们的方法无法检测到主要有面部表情和情绪的代表性摘录。相反,当只观察面孔而不是姿势时,我们的方法只能检测面孔突出的摘录,而忽略面孔太小、太遮挡或在黑暗中的摘录。使用这两种模式,我们的方法可以检测到所有有代表性的摘录。

图5:通过我们的方法检测到的高亮显示示例帧。我们展示了使用我们方法不同消融版本检测到的高亮分数范围内的样本视频帧。我们展示了来自数据集SumMe[15](左上)、PHD2[11](右上)、DSH[47](左下)和TVSum[46](右下)的一个示例视频。当只使用面孔或姿势时,我们的方法只基于面部或姿势的代表性来学习高亮分数。结合这两种模式,我们的方法学习基于代表性的突出分数。

5.6.  突出显示分数阈值的效果

在我们的方法中,我们使用高亮分数的阈值来检测高于该阈值的高光摘录。我们在图4中显示了我们的阈值对DSH数据集中[47]中每个域的平均精度(mAP)的影响。我们观察到,随着我们对阈值的增加,mAP的总体趋势逐渐下降,因为我们的方法返回的高光点越来越少。但是,对于某些领域(例如冲浪)而言,情况并非如此,因为其中代表性摘录的高亮分数已经足够高。在实践中,我们考虑阈值的选择取决于用户的偏好,因此我们建议将它作为可供用户为每个视频配置的参数


图4:不同高亮阈值下的的平均AP得分。在DSH数据集中[47]中的域上。

6. 结论、局限性及未来的工作

我们提出了一种新的基于神经网络的方法来检测以人为中心的视频中的高亮点。我们的方法可以利用视频中可观察到的以人为中心的模式,如面部和姿势,并自动使用这些模式来检测视频中最具代表性的亮点。在特定领域的高光(DSH)数据集[47]、个人高光检测数据集(PHD2)[11]、TVSum数据集[46]和SumMe数据集[15]上的广泛实验结果表明,与几个最先进的基线方法相比,我们提出的方法拥有更好的性能。

不过我们的方法也有一定的局限性。虽然我们的网络设计为可以容纳任意数量的模式,但我们只在基准测试中使用了具有最好平均性能的人脸和姿态两种模式。然而,许多视频(例如,关于梳理动物的视频,制作三明治的视频TVSum)展示了其他模式,如手和手指。因此,我们计划在未来将更多以人类为中心的模式纳入我们的实验中。我们的方法可能不会为以非人类为中心的视频提供太多的性能提升,如通常关注其他类别的生命或无生命物体或自然场景的视频。我们计划在未来使用适当的模式来探索这些领域。我们的方法还可以与特定领域的特性相结合,或与用户偏好相适应,通过微调以检测出更多的高亮点。

参考文献

[1] Hillel Aviezer, Yaacov Trope, and Alexander Todorov. Body cues, not facial expressions, discriminate between intense positive and negative emotions. Science, 338(6111):1225–1229, 2012. 2

[2] Uttaran Bhattacharya, Trisha Mittal, Rohan Chandra, Tanmay Randhavane, Aniket Bera, and Dinesh Manocha. Step: Spatial temporal graph convolutional networks for emotion perception from gaits. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20), page 1342–1350. AAAI Press, 2020. 2, 3

[3] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan. Iemocap: Interactive emotional dyadic motion capture database. Language resources and evaluation, 42(4):335, 2008. 3

[4] Sijia Cai, Wangmeng Zuo, Larry S. Davis, and Lei Zhang. Weakly-supervised video summarization using variational encoder-decoder and web prior. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2

[5] C. Chen, R. Jafari, and N. Kehtarnavaz. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In 2015 IEEE International Conference on Image Processing (ICIP), pages 168–172, 2015. 3

[6] Chong-Wah Ngo, Yu-Fei Ma, and Hong-Jiang Zhang. Automatic video summarization by graph modeling. In Proceedings Ninth IEEE International Conference on Computer Vision, pages 104–109 vol.1, 2003. 2

[7] Wen-Sheng Chu, Yale Song, and Alejandro Jaimes. Video co-summarization: Video summarization by visual cooccurrence. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7

[8] Cisco. Annual internet report (2018–2023): https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html# toc484813989. CISCO White paper, 2020. 1

[9] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 3844–3852. Curran Associates, Inc., 2016. 4

[10] Annalisa Franco, Antonio Magnani, and Dario Maio. A multimodal approach for human activity recognition based on skeleton and rgb data. Pattern Recognition Letters, 131:293–299, 2020. 3

[11] Ana Garcia del Molino and Michael Gygli. Phd-gifs: Personalized highlight detection for automatic gif creation. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, page 600–608, New York, NY, USA, 2018. Association for Computing Machinery. 1, 2, 6, 7, 8

[12] Adam Geitgey. Face Recognition, 2020. 3, 4, 5

[13] Boqing Gong, Wei-Lun Chao, Kristen Grauman, and Fei Sha. Diverse sequential subset selection for supervised video summarization. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27, pages 2069–2077. Curran Associates, Inc., 2014. 2

[14] Hongxiang Gu and Viswanathan Swaminathan. From thumbnails to summaries-a single deep neural network to rule them all. In 2018 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. IEEE, 2018. 2, 4

[15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. Creating summaries from user videos. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 505–520, Cham, 2014. Springer International Publishing. 2, 6, 7, 8

[16] Michael Gygli, Helmut Grabner, and Luc Van Gool. Video summarization by learning submodular mixtures of objectives. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7

[17] Michael Gygli, Yale Song, and Liangliang Cao. Video2gif: Automatic generation of animated gifs from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. 2, 6, 7

[18] Yifan Jiao, Zhetao Li, Shucheng Huang, Xiaoshan Yang, Bin Liu, and Tianzhu Zhang. Three-dimensional attention-based deep ranking model for video highlight detection. IEEE Transactions on Multimedia, 20(10):2693–2705, 2018. 2

[19] Yifan Jiao, Tianzhu Zhang, Shucheng Huang, Bin Liu, and Changsheng Xu. Video highlight detection via region-based deep ranking model. International Journal of Pattern Recognition and Artificial Intelligence, 33(07):1940001, 2019. 2

[20] Hideo Joho, Jacopo Staiano, Nicu Sebe, and Joemon M Jose. Looking at the viewer: analysing facial activity to detect personal highlights of multimedia contents. Multimedia Tools and Applications, 51(2):505–523, 2011. 2

[21] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. 5

[22] Aditya Khosla, Raffay Hamid, Chih-Jen Lin, and Neel Sundaresan. Large-scale video summarization using web-image priors. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2

[23] Gunhee Kim, Leonid Sigal, and Eric P. Xing. Joint summarization of large-scale collections of web images and videos for storyline reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 1, 2

[24] Gunhee Kim and Eric P. Xing. Reconstructing storyline graphs for image recommendation from web community photos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2

[25] Hoseong Kim, Tao Mei, Hyeran Byun, and Ting Yao. Exploiting web images for video highlight detection with triplet deep ranking. IEEE Transactions on Multimedia,

20(9):2415–2426, 2018. 1, 2

[26] Yelin Kim, Honglak Lee, and Emily Mower Provost. Deep learning for robust feature generation in audiovisual emotion recognition. ICASSP, pages 3687–3691, 2013. 3

[27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5

[28] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016. 4

[29] Muhammed Kocabas. Simple Multi Person Tracker, 2019. 3, 4, 5

[30] Y. J. Lee, J. Ghosh, and K. Grauman. Discovering important people and objects for egocentric video summarization. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1346–1353, 2012. 2

[31] Ang Li, Meghana Thotakuri, David A Ross, Jo˜ao Carreira, Alexander Vostrikov, and Andrew Zisserman. The ava-kinetics localized human actions video dataset. arXiv preprint arXiv:2005.00214, 2020. 5

[32] G. Li, Y. Zhao, M. Ji, X. Yuan, and L. Fang. Zoom in to the details of human-centric videos. In 2020 IEEE International Conference on Image Processing (ICIP), pages 3089–3093, 2020. 2

[33] Jianan Li, Xuemei Xie, Qingzhe Pan, Yuhan Cao, Zhifu Zhao, and Guangming Shi. Sgm-net: Skeleton-guided multimodal network for action recognition. Pattern Recognition, 104:107356, 2020. 3

[34] S. Li and W. Deng. Deep facial expression recognition: A survey. IEEE Transactions on Affective Computing, pages 1–1, 2020. 2

[35] Zheng Lu and Kristen Grauman. Story-driven summarization for egocentric video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2, 7

[36] Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 202–211, 2017. 1, 2, 4, 6, 7

[37] D. Mehta, O. Sotnychenko, F. Mueller, W. Xu, S. Sridhar, G. Pons-Moll, and C. Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 2018 International Conference on 3D Vision (3DV), pages 120–130, 2018. 5

[38] Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI’20, pages 1359–1367. AAAI Press, 2020. 2, 3

[39] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. Emoticon: Context-aware multimodal emotion recognition using frege’s principle. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 3

[40] Rameswar Panda and Amit K. Roy-Chowdhury. Collaborative summarization of topic-related videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2, 6, 7

[41] Danila Potapov, Matthijs Douze, Zaid Harchaoui, and Cordelia Schmid. Category-specific video summarization. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 540–555, Cham, 2014. Springer International Publishing. 2, 6, 7

[42] Mrigank Rochan, Mahesh Kumar Krishna Reddy, Linwei Ye, and Yang Wang. Adaptive video highlight detection by learning from user history. In Proceedings of the European Conference on Computer Vision (ECCV), August 2020. 1, 2, 4, 6, 7

[43] Mrigank Rochan and Yang Wang. Video summarization by learning from unpaired data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition (CVPR), June 2019. 2

[44] Mrigank Rochan, Linwei Ye, and Yang Wang. Video summarization using fully convolutional sequence networks. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2, 6, 7

[45] A. Shahroudy, T. Ng, Y. Gong, and G. Wang. Deep multimodal feature analysis for action recognition in rgb+d videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1045–1058, 2018. 3

[46] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7, 8

[47] Min Sun, Ali Farhadi, and Steve Seitz. Ranking domain specific highlights by analyzing edited videos. In European conference on computer vision, pages 787–802. Springer, 2014. 1, 2, 4, 6, 7, 8

[48] Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, and Dong Xu. Human-centric spatio-temporal video grounding with visual transformers. arXiv preprint arXiv:2011.05049, 2020. 2

[49] Ba Tu Truong and Svetha Venkatesh. Video abstraction: A systematic review and classification. ACM Trans. Multimedia Comput. Commun. Appl., 3(1):3–es, Feb. 2007. 2

[50] Paul Vicol, Makarand Tapaswi, Llu´ıs Castrej´on, and Sanja Fidler. Moviegraphs: Towards understanding human-centric situations from videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 2

[51] Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David Brady, Qionghai Dai, and Lu Fang. Panda: A gigapixel-level human-centric video dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2

[52] Zijun Wei, Boyu Wang, Minh Hoai Nguyen, Jianming Zhang, Zhe Lin, Xiaohui Shen, Radomir Mech, and Dimitris Samaras. Sequence-to-segment networks for segment detection. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31, pages 3507–3516. Curran Associates, Inc., 2018. 2, 6, 7

[53] Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, and Kristen Grauman. Less is more: Learning highlight detection from video duration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1258–1267, 2019. 1, 2, 4, 6, 7

[54] Bo Xiong, Gunhee Kim, and Leonid Sigal. Storyline representation of egocentric videos with an applications to story-based search. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2

[55] Jia Xu, Lopamudra Mukherjee, Yin Li, Jamieson Warner, James M. Rehg, and Vikas Singh. Gaze-enabled egocentric video summarization via constrained submodular maximization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2

[56] Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In Sheila A. McIlraith and Kilian Q. Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 7444–7452. AAAI Press, 2018. 2, 3, 4

[57] Huan Yang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, and Baining Guo. Unsupervised extraction of video highlights via robust recurrent auto-encoders. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2, 6, 7

[58] Ting Yao, Tao Mei, and Yong Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 982–990, 2016. 2

[59] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 – 109, 1998. 2

[60] Youngjae Yu, Sangho Lee, Joonil Na, Jaeyun Kang, and Gunhee Kim. A deep ranking model for spatio-temporal highlight detection from a 360 video. pages 7525–7533, 2018. 2

[61] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In ACL (Volume 1: Long Papers), pages 2236–2246, 2018. 3

[62] Wenjun Zeng. Toward human-centric deep video understanding. APSIPA Transactions on Signal and Information Processing, 9:e1, 2020. 1

[63] Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 766–782, Cham, 2016. Springer International Publishing. 1, 2, 6, 7

[64] Ke Zhang, Kristen Grauman, and Fei Sha. Retrospective encoders for video summarization. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2

[65] Bin Zhao, Xuelong Li, and Xiaoqiang Lu. Hierarchical recurrent neural network for video summarization. In Proceedings of the 25th ACM International Conference on Multimedia, MM ’17, page 863–871, New York, NY, USA, 2017. Association for Computing Machinery. 2

[66] Bin Zhao and Eric P. Xing. Quasi real-time summarization for consumer videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2

[67] Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. pages 7582–7589, 2018. 1, 2, 6, 7

理论自动高亮集锦生成Adobe Research
2
相关数据
Luc Van Gool人物

Luc Van Gool博士于2006年联合创办了kooaba AG,并担任其科学顾问。 Gool博士也是eSaturnus,Eyetronics,GeoAutomation和Procedural Inc.的联合创始人。他还担任计算机图形学和计算机视觉期刊《Foundations & Trends》的主编。 他领导瑞士苏黎世联邦理工学院的计算机视觉实验室和比利时鲁汶大学的VISICS研究所。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

多模态学习技术

现实世界中的信息通常以不同的模态出现。例如,图像通常与标签和文本解释联系在一起;文本包含图像以便更清楚地表达文章的主要思想。不同的模态由迥异的统计特性刻画。例如,图像通常表示为特征提取器的像素强度或输出,而文本则表示为离散的词向量。由于不同信息资源的统计特性不同,发现不同模态之间的关系是非常重要的。多模态学习是一个很好的模型,可以用来表示不同模态的联合表示。多模态学习模型也能在观察到的情况下填补缺失的模态。多模态学习模型中,每个模态对应结合了两个深度玻尔兹曼机(deep boltzmann machines).另外一个隐藏层被放置在两个玻尔兹曼机上层,以给出联合表示。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

GoogLeNet技术

同样在2014年,谷歌提出了 GoogLeNet(或Inception-v1)。该网络共有22层,且包含了非常高效的Inception模块,它同样没有如同VGG-Net那样大量使用全连接网络,因此参数量非常小。GoogLeNet最大的特点就是使用了Inception模块,它的目的是设计一种具有优良局部拓扑结构的网络,即对输入图像并行地执行多个卷积运算或池化操作,并将所有输出结果拼接为一个非常深的特征图。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

Adam优化器技术

自适应矩估计(Adam)优化器是计算每个参数的自适应学习率的另一种方法。 除了存储像Adadelta和RMSprop之类的过去平方梯度vtvt的指数衰减平均数之外,Adam也保持了过去梯度mtmt的指数衰减平均值,类似于动量:

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

易观机构

易观是大数据公司,打造了以海量数字用户资产及算法模型为核心的大数据产品、平台及解决方案,可以帮助企业高效管理数字用户资产和对产品进行精细化运营,通过数据驱动营销闭环,从而实现收入增长、成本降低和效率提升,并显著规避经营风险,实现精益成长。

http://www.analysys.cn/
Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
活动识别技术

活动识别旨通过对代理人的行为和环境条件的一系列观察来识别一个或多个代理人的行为和目标。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

视频摘要技术

视频摘要是将视频序列压缩至少量静止图像(即关键帧)的任务。

Zoom机构
暂无评论
暂无评论~