Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

蚂蚁集团作者

CVPR 2022 | 16万视频对、28万对片段,蚂蚁开源视频侵权检测超大数据集

该研究提出了目前最大规模(超过现有其他数据集 2 个数量级规模)的视频侵权定位数据集VCSL,并提出全新的视频片段拷贝检测的评价指标。相关研究入选CVPR 2022。

传统的版权保护行业费时、费力、成本高,海量内容难以全量保护,内容分发难以掌控传播的安全问题。区块链技术具有不可篡改、追根溯源、分布式共识等特点,和数字版权保护具有天然契合之处,将区块链技术与 AI 多媒体侵权检测技术相结合,极大降低了版权维权成本,提升版权保护效率,同时也为网络版权的存证、交易、维权提供了新的途径。因此,蚂蚁集团 - 数字科技线推出了一站式数字内容原创保护平台 「鹊凿」,图片视频等内容一键上链,快速完成版权存证,在司法机关和公证机构的共同见证下,成为“盗版维权” 的铁证。


相关的产品介绍可见于官网:https://www.mydcs.com/pages/index

在版权保护中,视频侵权检测能力是极为重要的一部分。现如今,盗版视频的猖獗不仅让视频网站损失惨重,同时给内容创作者带来经济和精神上的损失更是不可估量。2021 年 4 月,中宣部版权局提出,加大对视频侵权行为的打击力度。近些年,包括二次创作、视频剪辑在内的侵权手段层出不穷,盗版视频的侵权样例也不仅局限在简单的盗摄或者加水印等容易被识别的方式。因此面向版权保护的视频侵权检测方法就变得尤为重要,针对这一系列问题,基于 AI 的多媒体比对算法技术,能够显著地节省人工审核的成本,提高侵权取证的效率,实现在大范围检索情况下做出精确的识别,是解决视频侵权问题的有效方案。

图 1. 蚂蚁构建大规模视频侵权数据集(VCSL)中的典型侵权样例

但是目前针对版权侵权检测,尤其是视频侵权这一领域在学术界和产业界都存在着一些瓶颈问题,主要体现在下面三点:

  • 数据集,目前学术界已经开源的数据集大部分都是只有视频级别的标注(Trecvid[1], SVD[2], FIVR[3]),即视频对之间只标注了是否侵权,而并未标注两个视频之间实际侵权的时间片段(即侵权起始时间位置和结束时间位置)。目前开源的拥有片段级别标注的数据集仅有 2014 年 ECCV 上开源的 VCDB 数据集[4],但这个数据集规模比较小,仅有 6k 对实际侵权的视频对,这也会在后面的章节进行介绍。

  • 算法评价指标,在学术界中,视频级别的拷贝检测评价指标比较成熟,但是片段粒度的拷贝检测准确度的评价指标仍然存在着比较多的问题。之前 VCDB 论文中提出的评价指标在实际的实验测试中出现了一系列指标上的偏差以及应用上的问题。

  • 侵权定位算法,侵权定位算法,在这里侵权定位(Temporal Alignment)算法指的是在提取出两段视频的时序特征后,需要输出两段视频侵权的时间片段。大部分侵权定位的算法都是不开源的,因此学术界也无法形成一个完善的 benchmark,视频拷贝检测和侵权定位这个领域也相对较为停滞。


针对以上三个主要问题,该研究做了大量的视频拷贝检测和侵权定位相关的研究工作,包括了:

  • 提出了目前最大规模(超过现有其他数据集 2 个数量级规模)的视频侵权定位数据集,包括了超过 16 万对侵权视频对,28 万对侵权片段,并且涵盖了大量的视频领域和视频时长。

  • 提出了全新的视频片段拷贝检测的评价指标,该评价指标充分考虑到了视频拷贝检测这个任务的特殊性,并且在实际场景下体现出了更好的适应性。

  • 提出了关键帧和侵权定位端到端的模型 SSAN 并达到了现阶段最高指标,并且将现阶段学术界的常见侵权定位算法进行复现并且开源,形成了完善全面的视频侵权定位 benchmark。


上面的成果已经分别被计算机视觉顶会 CVPR 和多媒体顶会 ACM MM 成功录用和发表。


  • CVPR 2022 VCSL 论文:https://arxiv.org/abs/2203.02654

  • VCSL 数据集和评测以及算法代码:https://github.com/alipay/VCSL


大规模视频片段拷贝检测数据集 VCSL

针对上一节提出的现有数据集问题,该研究希望提出一个全面的数据集,满足下面的要求:

  • 视频拷贝的类型必须要尽可能的全面,但是要避免过度变换使得侵权的视频基本不具备观赏性。

  • 视频类型必须覆盖常见的视频种类,比如电影、电视剧、动画、体育等不同场景。

  • 视频时长分布尽可能广泛,不要局限于只是短视频或者只是长视频。


基于以上三个要求,该研究打标完成了 VCSL(Video Copy Segment Localization)数据集。研究者从 Youtube 和 Bilibili 上选取了 122 个种子视频,每个种子视频也与关键词相关联。在打标过程中,研究者模拟了真实情况,让打标同学进行搜索找到可能侵权的视频然后再进行打标比对,滤除不相干的视频并标注出实际侵权的时间片段。

表 1. VCSL 与其他学术界现有数据集的比较

VCSL 数据集与学术界其他数据集的对比由表 1 所示,可以看到 VCSL 在侵权视频对数量和侵权片段数量上都比现有学术界数据集高出两个数量级。并且在视频时长、侵权片段时长、视频种类的分布上更加广泛。

视频片段拷贝检测的新评价指标

学术界范围内,之前在 Muscle-VCD[5]和 VCDB[4]中提出过片段级别拷贝检测的评价指标,这几年比较常见的学术界工作主要用了 VCDB[4]中定义的片段的准确率和召回率:


准确率和召回率的分子均为正确被检测到的片段,其中正确检测到的片段定义为只要与实际的侵权片段有一帧的重合即定义为正确检测。准确率的分母为所有被检测到的片段数量,召回率的分母为实际打标真实拷贝的片段数量。另外,VCDB 论文中还定义了帧的准确率和召回率:

与片段粒度类似,只不过统计维度是在帧粒度。

上述提到的片段准确率 / 召回率和帧准确率 / 召回率都有其局限性。最重要的一点是,该评价指标只适合于片段和视频的拷贝检测,即需要打标好的被侵权片段与可能侵权的视频作为输入,而不是两段完整的视频作为输入,这种评价方式在实际场景下是不现实的。同时,对于片段准确率 / 召回率,检测到的片段只要和实际的打标片段有一帧重叠就认为是正确的计算方式,会导致评价指标对侵权定位的准确度的感知比较差。另外,这些指标没有考虑到视频拷贝的一些重要特性,即下面提到的切分等效性。

之前的评价指标需要将标注好的片段和视频比较,这个并不适合于实际的应用。在该研究提出的评价指标中,他们用两个完整的视频作为输入来检测这两个视频中可能存在的拷贝片段。另外,该研究在观察视频拷贝的标注数据中发现了视频拷贝一个特性,即片段切分等效特性。这种特性是由于在某些情况下,很难确定拷贝片段的边界,如下图所示,视频部分的中间帧被修改以及短暂插入其他视频帧,如下图 2(a)所示,另外图 2(b)这种混剪的情况也类似,该研究认为在这些情况下,将拷贝视频片段标注为一整段和多段连续的片段都是合理的。因此该研究在设计新的评价指标时,需要将这种片段切分等效特性考虑进去,使得评价指标对这种切分是鲁棒的。

图 2. 视频侵权案例,(a),(b)图左侧为按时间排布的视频画面帧,右侧为视频帧序列相似图,横轴和纵轴分别代表着两个视频的时间轴,黑框内表示实际标注的侵权事件片段,详细解释图也可见于后文图 6 右侧。

这个评价指标的表示可以通过视频帧相似图进行表示,如下图所示。拷贝片段对在相似图上表现为一个检测框,而这个拷贝片段,可以表现为在相似图上的一条直线,这表示了帧的顺序对应。而橘黄色框表示实际打标的 GT 拷贝片段,蓝色框表示算法输出的预测拷贝片段。

图 3. (a-b)描述了该研究提出的算法计算过程,(c-f)描述了四种对比该研究提出的评价指标和之前指标对比的简化情况。虚线表示侵权帧在时域上的位置,同时也会有其他更复杂的侵权情况表现为更复杂的 pattern。

具体来说,首先该研究找到每个 GT 框与所有的预测框的交际区域,如上图 (a) 所示,接下来计算这个交叠区域在 x 轴和 y 轴上的并集长度。同时计算出每个 GT 框的长度和宽度,最后分子为交叠区域的并集长度相加,分母为 GT 框的长度相加,即可得到 recall,如上图 (a) 所示。

类似的,首先该研究找到每个预测框与所有 GT 框的交际区域,如上图 (b) 所示,接下来计算这个交叠区域在 x 轴和 y 轴上的并集长度。同时计算出每个预测框的长度和宽度,最后分子为交叠区域的并集长度相加,分母为预测框的长度相加,即可得到 precision,如上图 (b) 所示。值得注意的是,该研究并没有用学术界常用的面积,而是采用了 x y 轴的投影进行计算,这是为了评价指标对片段切分更加鲁棒。最后,将 recall 和 precision 结合,得到 F-score,作为评价参数


视频片段拷贝检测算法 benchmark

首先将视频拷贝检测算法的处理流程分为三个部分:视频预处理,视频特征提取和视频侵权定位,如下图所示。

图 4. 视频拷贝检测算法处理流程。

基于 VCSL 数据集和新的评价指标,该研究首先复现了目前常见的侵权定位算法,包括霍夫投票(Hough Voting)、时域网络(Temporal Network)、动态规划(Dynamic Programming)、动态时间扭曲(Dynamic Time Warping),并结合常见的开源帧特征算法,得到如下图所示的 benchmark。


其中 SPD 是该研究团队在去年 ACM MM21 中提出的侵权定位算法,也是当前视频侵权定位效果最好的算法。其中 SPD 下划线 1 表示在之前开源数据集 VCDB 上训练的效果,下划线 2 表示在 VCSL 数据集上训练的效果。可以看到后者效果好于前者,这也说明了大规模数据集的重要性。

这里也简单介绍下该研究在 ACM MM21 上发表的论文《Learning Segment Similarity and Alignment in Large-Scale Content Based Video Retrieval》,他们提出了一种视频片段相似度和定位网络(Segment Similarity and Alignment Network,SSAN),主要由两个部分组成:自监督关键帧检测 (Self-supervised Keyframe Extraction,SKE) 和相似图侵权定位检测(Similarity Pattern Detection,SPD)。关键帧检测(SKE)主要用于提取鲁棒且有代表性的关键帧,去除相似冗余帧;相似图侵权定位检测(SPD)主要用于视频相似片段定位。整个 SSAN 可以端到端进行训练,得到现阶段最好的片段级别侵权定位效果。

论文地址:https://dl.acm.org/doi/abs/10.1145/3474085.3475301

图 5. SSAN 算法结构,包括了关键帧抽取模块,基于帧的视频检索和时域侵权定位模块

在相似图侵权定位检测(SPD)这个模块中,该研究巧妙地将侵权定位问题转变成一个目标检测问题,如下图所示,这样就只需要极少的运算量就可以得到侵权定位的结果,并且具有多段侵权检测能力。

图 6. 左图,时域侵权定位 SPD 算法示意图,右图,相似图生成与原视频对示意图

本文的所有代码都已经开源,欢迎大家交流讨论和引用!

另外在今年的 CVPR22 上,蚂蚁集团复旦大学人工智能创新与产业研究院,在 Biometric Workshop 上联合举办“宠物生物特征识别竞赛”,近期已在阿里云天池平台拉开帷幕。通过举办本届赛事,蚂蚁集团希望与合作伙伴一起,推动计算机视觉技术在生物特征识别领域的进步,鼓励面向真实场景的技术创新,为世界带来微小而美好的改变。更多比赛信息可扫二维码查看:


https://tianchi.aliyun.com/competition/entrance/531952/introduction


参考文献

[1] Over P, Awad G, Michel M, et al. Trecvid 2012-an overview of the goals, tasks, data, evaluation mechanisms and metrics[J]. 2013.
[2] Jiang Q Y, He Y, Li G, et al. SVD: A large-scale short video dataset for near-duplicate video retrieval[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 5281-5289.
[3] Kordopatis-Zilos G, Papadopoulos S, Patras I, et al. FIVR: Fine-grained incident video retrieval[J]. IEEE Transactions on Multimedia, 2019, 21(10): 2638-2652.
[4] Jiang Y G, Jiang Y, Wang J. VCDB: a large-scale database for partial copy detection in videos[C]//European conference on computer vision. Springer, Cham, 2014: 357-371.
[5] https://web.archive.org/web/20120126063622/http://www-rocq.inria.fr/imedia/civr-bench/data.html
理论CVPR蚂蚁集团
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
蚂蚁集团机构

蚂蚁集团是移动支付平台支付宝的母公司,也是全球领先的金融科技开放平台,致力于以科技和创新推动包括金融服务业在内的全球现代服务业的数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。

http://www.antgroup.com
区块链技术技术

所谓区块链技术,简称BT(Blockchain technology),也被称之为分布式账本技术,是一种互联网数据库技术,其特点是去中心化、公开透明,让每个人均可参与数据库记录

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

图生成技术

根据给定信息信息生成图表。

视频检索技术

视频检索的目的是给定一个文本查询和一个候选视频池,选择与文本查询相对应的视频。

暂无评论
暂无评论~