论文题目:Multi-granularity Correspondence Learning from Long-term Noisy Videos 论文地址:https://openreview.net/pdf?id=9Cu8MRmhq2 项目地址:https://lin-yijie.github.io/projects/Norton 代码地址:https://github.com/XLearning-SCU/2024-ICLR-Norton
粗粒度 NC(Clip-Caption 间)。粗粒度 NC 包括异步(Asynchronous)和不相关(Irrelevant)两类,区别在于该视频片段或标题能否与现有标题或视频片段相对应。其中「异步」指视频片段与标题间存在时序上的错位,例如图 2 中 t1。由于讲述者在实际执行动作的前后进行解释,导致陈述与行动的顺序不匹配。「不相关」则指无法与视频片段对齐的无意义标题(例如 t2 和 t6),或是无关的视频片段。根据牛津 Visual Geometry Group 的相关研究 [5],HowTo100M 数据集中只有约 30% 的视频片段与标题在视觉上是可对齐的,而仅有 15% 是原本就对齐的; 细粒度 NC(Frame-Word 间)。针对一个视频片段,可能一句文本描述中只有部分文字与其相关。在图 2 中,标题 t5 中「糖撒在上面」与视觉内容 v5 强相关,但动作「观察釉面脱落」则与视觉内容并不相关。无关的单词或视频帧可能会阻碍关键信息提取,从而影响片段与标题间的对齐。
面向细粒度 NC。研究者采用 log-sum-exp 近似作为 Soft-maximum 算子去识别帧 - 词和词 - 帧对齐中的关键词和关键帧,以细粒度的交互方式实现重要信息抽取,累计得到片段 - 标题相似性。 面向粗粒度异步 NC。研究者采用最优传输距离作为视频片段和标题之间的距离度量。给定视频片段 - 文本标题间相似性矩阵 ,其中
表示片段与标题个数,最优传输目标为最大化整体对齐相似性,可天然处理时序异步或一对多(如 t3 与 v4,v5 对应)的复杂对齐情况。
![图片](https://image.jiqizhixin.com/uploads/editor/47c6e878-7245-4e6b-a76e-6844c46e2358/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/415e936f-1365-4dec-b077-02a985ce7f36/640.png)
面向粗粒度不相关 NC。受特征匹配中 SuperGlue [6] 启发,我们设计了自适应的可对齐提示桶去尝试过滤不相关的片段与标题。提示桶是一行一列的相同值向量,拼接于相似性矩阵 上,其数值代表是否可对齐的相似度阈值。提示桶可无缝融入最优传输 Sinkhorn 求解中。
![图片](https://image.jiqizhixin.com/uploads/editor/3b657672-dc8f-4bdf-8034-1ee26c5ec0f7/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/0c3ee032-4cd2-488a-ba56-155dcf314f43/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/92ff25bc-e6fa-4377-ad85-41a6abfd8cc0/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/e0dc043c-03c8-402a-8646-9a71953d5fef/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/7bc55e9d-a96a-495d-965a-d6d1f078b828/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/8580cc5c-36d0-49ed-8110-f96bf169a276/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/a61a5c37-6b4e-491a-92ad-89867a4fa23e/640.png)
![图片](https://image.jiqizhixin.com/uploads/editor/4b97f867-ffbc-410f-a3cd-ef18341f23ae/640.png)