视频描述相对来说是一个高层的复杂任务,不同的人对同一个视频的描述也不尽相同。这一复杂任务可以借助内部知识或者外部知识来辅助生成。来自中科院自动所视频内容安全团队和腾讯 PCG 应用研究中心(ARC)的研究者提出了一种称为开卷视频描述(Open-book Video Captioning)的解决思路。
视频描述任务(Video Captioning),是指给定一段视频,根据视频生成一句客观反映视频内容的一句话。随着近几年短视频的持续发展,作为视觉 - 文本的跨模态生成式研究,视频描述受到了越来越多的关注。已有的视频描述方法,研究者更多的是关注如何从视频中获取更加有用的信息,如何实现视觉特征到文本之间的对齐,或者如何实现可控的文本生成等。但由于这些方法的输入仅有视频本身,文本生成的过程中缺乏合适的引导,导致生成的描述句较为泛泛。而且这些方法一旦在相关数据集上训练结束,其内部的知识就不再改变了,很难做到模型知识的扩展。来自中科院自动所视频内容安全团队和腾讯 PCG 应用研究中心(ARC)的研究者提出了开卷视频描述(Open-book Video Captioning)的解决思路。论文地址:https://arxiv.org/abs/2103.05284该工作借鉴人类在写作或者回答问题的时候,往往会根据已有的知识和记忆,借助外部的资料进行查询,从这些相关的资料中总结或者摘抄文字作为问题的答案。这与最近在自然语言处理领域很火的「开放域问答(Open-domain Question Answer)」的相关研究具有异曲同工之处。检索 - 拷贝 - 生成(Retrieve-Copy-Generate)网络首先,研究者对比了「视频 - 文本检索」和「视频描述」这两个任务,并认为「视频 - 文本检索」比「视频描述」更加简单。作为判别型任务的「视频 - 文本检索」可以同时获取到视频和文本两个模态的信息;而作为生成型任务的「视频描述」则仅能通过视频逐步地生成句子。因此,该研究提出来检索 - 拷贝 - 生成(Retrieve-Copy-Generate)网络:首先利用跨模态检索去语料库中搜索与视频相关的若干检索句,之后构建的多句拷贝模块,可以根据检索句的置信度动态地拷贝检索句中的关键词,这些单词可以直接作为生成句的输出。该模型的优势在于能够利用跨模态检索为视频描述提供提示或者指导,从而降低描述生成的难度;同时跨模态检索器相当于外在知识的补充,可插拔的结构也便于通过更换不同领域的检索器进行模型内容的扩展。顾名思义,该网络主要由两个部分组成:一个是视频到文本的跨模态检索器,主要目的是为了从大量的文本候选集中获得与视频语义相关的检索句,同时获得置信度(相关度)。另一个是带拷贝机制的生成器,主要是从上面获取的检索句中直接拷贝单词或者短语作为生成句子的一部分。但是,并非所有检索句都一定包含有用的信息,这受限于检索器的性能和检索语料库的相关程度,所以最终生成单词的时候一方面要考虑检索句的置信度,再一个还要考虑针对当前的上下文是否需要拷贝的概率。视频 - 文本检索器(Video-to-Text Retrieval)利用双流结构,将视频和文本映射到同一个高层语义空间当中,通过度量学习来训练网络,使同一视频所对应的描述距离更近,不相对应的描述距离更远。通过这种简单高效的方法,该方法可以将训练集中的所有句子作为检索库,输入视频作为查询,来获得与视频语义最相关的检索句。这些检索句将作为一种提示句,辅助描述的生成。带拷贝机制的生成器(Copy-mechanism Generator)利用多指针模块可以同时从多个检索句获得线索,结合原有的层级描述生成结构,在根据视频内容和上下文生成固定词表词汇的同时,也能从检索句中灵活地直接拷贝单词。研究者通过大量的实验验证了检索 - 拷贝 - 生成网络对开卷视频描述这一任务的有效性。本文选取了视频描述领域最常用的 MSR-VTT 和最新公布的 VATEX 数据集进行实验验证,分别验证了以下几个问题:(1)检索器性能的好坏是否会对生成结果产生影响?该研究选取不同的视频特征,如 I3D 网络提取的运动特征和用 ResNet 网络提取的表观特征,去对同一个检索器进行训练,由于使用的特征不同,检索器训练的好坏也不同,以此来模拟不同质量的检索器。如下表所示,可以看到检索器的性能和生成句子的好坏是正相关的。(2)检索句的数量是否会对生成有影响?在训练过程中,使用越多的检索句可能会引入越多的噪声。但是在验证阶段,由于模型已经具备一定的适应性,实验结果表明使用更多的句子可以带来更丰富的提示信息。(3)检索库的质量是否会对模型生成产生影响?(1)中讨论了检索器质量的影响,这里很自然地会想到如果检索库的质量不好,再好的检索器也无济于事。因此该研究利用不同比例的检索库作为基准,比例越低相关性高的句子被检索到的概率就越低,以此来模拟不同质量的检索库。可以发现检索库质量和生成质量也是正相关的。(4)由于该研究的检索器是可以跟生成器端到端训练的,因此研究者讨论了一起训练和直接使用训练好的检索器,哪个效果更好。实验结果表明,端到端的训练能更有效地调整检索器对于句子的置信度,从而有助于拷贝单词时的决策。(5)最后,该研究在跨数据集上进行了大胆的尝试。这更符合开卷视频描述的初衷,即从相关领域的数据集中检索有关信息作为指导。假设该模型是在 VATEX 上训练的,现在来了一个新的数据集 MSR-VTT,按照以往的模型,很难对从未见过的视频进行描述。但是由于检索器的存在,该方法可以有效地找到视频的一些文字信息作为提示,可以直接拷贝这些提示词,从而有助于描述的生成。此外,研究者通过可视化直观地表示了在每步生成中,如何从多个检索句中拷贝单词的过程,以及检索器针对句子中单词的注意力程度,从而反映出跨模态检索确实关注到了重点词汇上,并能对重点词汇进行拷贝。该研究最终的结果在两个数据集上的大部分指标都超过了当前最好的性能,感兴趣的读者可以阅读论文原文了解更多实验细节。该方法是由来自中科院自动所视频内容安全团队和腾讯 PCG 应用研究中心(ARC)的研究者提出的。视频内容安全团队是中国科学院自动化研究所模式识别国家重点实验室中以互联网内容理解与安全为主要研究方向的研究组。应用研究中心被称为腾讯 PCG 的「侦察兵」、「特种兵」,站在腾讯探索,挑战智能媒体相关前沿技术的第一线。