谷歌 AI 技术博客新文,RepNet:「细数」 视频中的重复过程
从自然周期的重复过程(例如月相或心跳和呼吸的阶段)到人工重复过程(如在生产线或交通方式中发现的重复过程)在我们的日常生活中均很常见。研究人员感兴趣的是重复的过程,而并不是其普遍性,因为人们可以从中汲取解读。可能是某件事多次发生背后有潜在原因,或者场景中逐渐变化可能对理解另有价值。有时,重复过程为我们提供了明确的 “动作单元”,即构成动作的语义上有意义的部分。例如,如果一个人正在切洋葱,则动作单位是重复进行操作以产生其他切片的操纵动作。这些单位可能表示更复杂的活动,并且可能使我们能够在更精细的时间范围内自动分析更多此类动作,而无需人工注释这些单位。近日,谷歌 AI 介绍 RepNet,该模型可以理解广泛的重复过程,包括人们锻炼或使用工具,奔跑的动物和拍打翅膀的鸟类等。与谷歌 AI 以前的工作相反,我们在同一动作的不同视频中使用周期一致性约束来细粒度地理解它们,在这项工作中,谷歌 AI 提出了一种可以识别单个视频中重复的系统。与该模型一起,谷歌 AI 将发布一个数据集以对视频中的类不可知计数进行基准测试,并发布一个可运行 RepNet 的 Colab notebook。