朱霖潮 作者悉尼科技大学 单位视频理解研究方向

CVPR 2020 | ActBERT: 自监督多模态视频文字学习

自监督特征学习近年来已有如火如荼的发展,并从单模态的监督学习,如图片自监督特征学习,视频自监督特征学习,蔓延到多模态,利用图片与文字或者视频与文字的关联性进行特征学习。 

利用图片与文字关联性进行监督学习已有非常多优秀的工作,如 Vilbert, LXMERT, VisualBERT, VLBERT, UNITER, Unified VLP 等等。这类工作的数据源一般是 Conceptual Captions 或 SBU Captions,且图片文字对往往是从网站中已有的数据自动抓取得到,无须额外的标注成本。通过图片与文字无监督的关联,这些模型在许多下游任务已取得明显提升。 

视频与文字监督学习在最近也有一定的进展。这种监督学习方法对下游任务也有显著提升。相比于图片与文字,视频与文字监督学习或许可以在更多应用场景得到使用,如最近比较火的短视频推荐,或细粒度动作理解等。


论文标题:ActBERT: Learning Global-Local Video-Text Representations

论文链接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf

一、问题背景

与图片文字类似,视频与文字监督学习也需要大量的关联数据,其中一种比较好的数据源就是教学视频(instructional videos)。在教学视频中,视频创作者往往在讲述一个具体任务的完成过程,其中会详细描述所见的视频内容。

举个例子,在教做菜的视频中,视频创作者会描述,“开始切胡萝卜”,往往人物也是在正进行“切胡萝卜”的动作。这种天然的视觉对应关系,是进行视频文字监督学习的重要要素。其中文字描述可以通过自动语音识别技术(ASR)从视频中或从创作者上传的字幕中提取文字。这样成对的视频文字数据就产生了。 

教学视频的另外一个优点就是来源丰富,包括做菜,修理日常用品,宠物护理,个人爱好等等。这种多种多样的人类日常生活数据,有助于协助很多人类日常行为或社交行为的理解。 

ICCV 2019 上的一篇论文 HowTo100M,收集了一百二十多万个的视频,并从中切出了 1 亿 3 千多万的视频片段进行无监督或自监督的视频文字关联。该论文使用一个非常简单的排序损失函数进行视频文字建模,但这种方式学习到的特征在许多下游任务上都能显著提升性能。可见在大规模数据进行视频文字建模是提升具体任务的一种比较好的思路。

二、ActBERT

同样在 ICCV 2019 上,VideoBERT 率先使用 BERT 的训练方式进行视频与文本的关联学习,并将视频帧作为视觉单词输入 BERT 网络。为了解决视觉特征无法做分类预测的问题,VideoBERT 使用了 hierachical k-means 的方法将视觉特征进行离散化,这样每个数据特征都对应一个离散的视觉中心。

然而一个视觉中心可能无法很好的同时描述局部和全局视觉内容,比如表示视频片段的动作和局部交互的物体。从而使得该方法无法进行更好地视频与文字匹配,比如文字”steak“与其视频内容的关联。 

为了解决上述问题,即同时进行文字与动作和局部区域的视觉输入关联,ActBERT 提出了一个简单的思路,就是在输入层同时加入全局动作特征与局部区域特征。

▲ 在输入层,引入动作特征与局部区域特征为了得到动作特征,首先从源数据集文本中提取动词,并构建出一个新的动词词汇表。在该词汇表下,将视频片段作为输入,训练一个 3D 的卷积网络。最后用这个 3D 网络的提取到的特征作为动作特征输入。而该网络的预测结果将是 ActBERT 分类预测时所对应的标签。 

为了得到局部特征,ActBERT 使用在 COCO上 预训练的 Faster R-CNN 在视频帧上产生物体候选框,每帧仅保留部分候选框以减少冗余,这些候选框对应的特征将作为网络输入,而候选框在 COCO 上的类别分布将作为 ActBERT 预测类别。

ActBERT对三种模态的建模方式

刚刚讲到,ActBERT 有三种模态输入,即全局动作,局部区域和语言描述。

ActBERT 设计了一种全新的纠缠编码模块从三个来源进行多模态特征学习,以增强两个视觉输入和语言之间的互动功能。该纠缠编码模块,在全局动作信息的指导下,对语言模型注入了视觉信息,并将语言信息整合到视觉模型中。纠缠编码器动态选择合适的上下文以促进目标预测。简单来说,纠缠编码器利用动作信息催化局部区域与文字的相互关联。

▲ 三输入的纠缠编码器该编码器引入了两个多头注意力模块,每个模块都将动作作为 query,从文字输入或区域输入中分别获取相关信息,并将输出作为另外一个模态的输入。具体操作如下:

ActBERT训练方式建模方式

类似于常用的 BERT 训练方式,ActBERT 有四个训练任务:
第一、有掩码的语言建模任务。利用区域物体和全局动作中的视觉信号,发现视觉和语言实体之间的关系。该任务迫使模型从上下文描述中学习,同时提取相关的视觉特征以协助文本预测。当动词被去除时,模型应该利用动作特征来更准确预测。当描述局部的名词被去除时,本地区域特征可以提供更多的上下文信息。
第二、有掩码的动作分类任务。这个任务是根据语言和物体特征,预测被去除的动作标签。明确的动作预测可以有两方面的好处:1)长时期动作序列线索可以被挖掘,该任务可以更好地分辨执行动作时的时间顺序;2)利用区域物体和语言文本可以获得更好的跨模态建模,该任务可以增强预训练模型中的动作识别能力,可以进一步推广到许多下游任务。

第三、有掩码的物体分类任务。在该任务中,局部区域对象特征被随机去除。其目标分布为将该区域输入到相同的目标检测模型得到的激活值。优化目标是最小化两种分布之间的 KL 差异。 

第四、跨模式匹配。与下一个句子预测(NSP)任务类似,在第一个符号 [CLS] 的输出后加入了一个线性分类器,用来指示语言与视觉特征的相关性。如果分数较高,表明文本很好地描述了视频片段。

三、实验结果

ActBERT 在 HowTo100M 数据集上进行预训练。该数据集涵盖了总计 23,611 项任务,例如维护和修理、动物营救、准备食材等。在五个任务上评测了 ActBERT 的性能,结果显示 ActBERT 在所有评测任务上都获得了大幅度的性能提升。

视频描述生成实验结果

ActBERT 在所有指标上均优于 VideoBERT,表明预训练学习到更好的视频表示,也表明 ActBERT 对视频序列建模的有效性。

动作分割实验结果

ActBERT 明显优于基准方法。它表明预训练的 ActBERT 可以仅处理视觉。当删除区域信息时,可以观察到性能下降了,表明详细的局部线索对于密集视频帧标记任务有重要作用。

动作步骤定位实验结果


ActBERT 的表现明显优于 TVJE,即平均提升有 7%。这个结果甚至比监督学习的性能还要好。为了与 TVJE 有公平的对比,本文删除了局部区域信息,这个结果也明显优于 TVJE,证明 ActBERT 预训练的有效性。完整 ActBERT 模型进一步提高了 4%。

文本视频片段检索与视频问答实验结果


不需要复杂的联合视频文本建模,ActBERT 明显优于现有其他方法。表明 ActBERT 在大规模数据集上的强大学习能力。

四、结论

在 ActBERT 像其他视频文字建模方式一样,展现了自监督视频文字建模强大的特征学习能力,并提升下游任务。未来的工作有:

1. 在细粒度动作分类上验证模型性能;

2. 改善超大规模训练过程中效率的问题;

3. 进一步改进多模态编码器的结构,提升多模态编码器的泛化能力;

4. 在更多域进行评测(如娱乐短视频),验证预训练模型在不同域之间的迁移能力。

PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论CVPR 2020自监督学习
相关数据
线性分类器技术

机器学习通过使用对象的特征来识别它所属的类(或组)来进行统计分类。线性分类器通过基于特征的线性组合的值进行分类决策。 对象的特征也称为特征值,通常在称为特征向量的向量中呈现给机器。

模式匹配技术

在计算机科学中,模式匹配就是检查特定序列的标记是否存在某种模式的组成部分。 与模式识别相比,匹配通常必须是精确的。 模式通常具有序列或树结构的形式。 模式匹配的使用包括输出令牌序列内的模式的位置(如果有的话),输出匹配模式的某个分量,以及用另一个令牌序列(即搜索和替换)替换匹配模式。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

关联数据技术

关联数据是一组用来描述用户任务运行环境以及在区域中连接用户任务方式的信息。用户任务是与用户定义的事务相关的任务,或与 CICS® 提供的事务相关的任务。CEMT 是通常由操作员启动的用户启动任务示例,CSMI 是由系统代表用户启动事务启动的任务示例。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

动作分类技术

动作分类任务涉及从视频剪辑(一串二维帧序列)中识别不同的动作,并对动作进行归类。

推荐文章
暂无评论
暂无评论~