魔王编辑

融合视频目标检测与单目标、多目标跟踪,港中文开源一体化视频感知平台 MMTracking

香港中文大学多媒体实验室(MMLab)OpenMMLab 开源一体化视频目标感知平台 MMTracking。

新年伊始,香港中文大学多媒体实验室(MMLab)OpenMMLab 又有新动作,发布了一款一体化视频目标感知平台 MMTracking。该框架基于 PyTorch 写成,支持单目标跟踪、多目标跟踪视频目标检测,目前已开源。

GitHub 地址:https://github.com/open-mmlab/mmtracking

MMTracking 效果展示。

据介绍,MMTracking 具备以下主要特性:

1. 首个开源一体化视频目标感知平台

对视频内的目标进行感知识别一直是学界、业界都非常关心的问题。这个问题在学界常被细分为不同的子问题,比如视频目标检测多目标跟踪与单目标跟踪。具体来说,

  • 视频目标检测只需对视频内的每一帧进行检测,不要求对不同帧中的同一目标进行关联。

  • 目标检测在完成视频目标检测的基础上,更加侧重于对视频内的同一目标进行关联。

  • 单目标跟踪更加侧重人机交互,算法需要在给定一个任意类别、任意形状目标的情况下,对其进行持续跟踪。


近几年来,虽然各个任务都涌现了许多优秀的算法,但这些领域仍然缺少开源的代码框架,给代码复现、借鉴、公平对比带来了很大困难。OpenMMLab 将这些任务融合到了同一框架下,希望能够作为开源的一体化视频目标感知平台,推动不同子领域间的融合、互促与发展。

2. OpenMMLab 内部项目间的充分交互

视频目标感知在大部分情况下可以认为是 2D 目标检测的下游任务,十分依赖各种 2D 目标检测算法。在此之前,如何使用或切换不同的 2D 目标检测器其实是一个很烦琐耗时的任务。

MMTracking 充分利用了 OpenMMLab 其他平台的成果与优势,比如它 import 或继承了 MMDetection 中的大部分模块,极大地简化了代码框架。在这种模式下,通过 configs 可以直接使用 MMDetection 中的所有模型。以多目标跟踪举例,每一个多目标跟踪模型多由以下几个模块组成:

import torch.nn as nnfrom mmdet.models import build_detectorclass BaseMultiObjectTracker(nn.Module):def __init__(self,detector=None,reid=None,tracker=None,motion=None,pretrains=None):self.detector = build_detector(detector)...

Configs 示例:

model = dict(type='BaseMultiObjectTracker',detector=dict(type='FasterRCNN', **kwargs),reid=dict(type='BaseReID', **kwargs),motion=dict(type='KalmanFilter', **kwargs),tracker=dict(type='BaseTracker', **kwargs))

现阶段的 ReID 模型也继承了 MMClassification 中的一些模块并将在后期增加其他支持。

受益于 OpenMMLab 的这种模块化设计,MMTracking 可以利用其他图像级平台的已有成果,从而只需要注重视频部分模块的设计与开发。同时,如果用户需要单独训练一个目标检测器,该工具也支持直接使用 MMDetection 的 configs 进行训练,只需要在 config 中添加一句 USE_MMDET=True 即可将模式切换到 MMDetection 下,进行前序模型训练。

3. 高效、强大的基准模型

视频目标感知领域中的不同方法往往各成一派,缺乏公认的训练方法与准则,因此在很多时候很难做到真正的公平对比。

MMTracking v0.5 复现了各个领域的主流算法,包括:

  • 视频目标检测:DFF、FGFA、SELSA

  • 多目标跟踪:SORT、DeepSORT、Tracktor

  • 单目标跟踪:SiameseRPN++


据 OpenMMLab 知乎文章介绍,MMTracking 在保证高效训练与推理的基础上,有些模型甚至超出官方实现,例如:

  • 视频目标检测算法 SELSA 的实现结果(第一行)相比于官方实现(第二行),在 ImageNet VID 数据集上 mAP@50 超出 1.25 个点。

  • 多目标跟踪算法 Tracktor 的实现结果(第一行)相比于官方实现(第二行),在 MOT17 数据集上 MOTA 超出 4.9 个点,IDF1 超出 3.3 个点。

  • 对单目标跟踪算法 SiameseRPN++ 的实现结果(第一行)相比于官方实现(第二行),在 LaSOT 数据集上的 Norm precision 超出 1.0 个点。

OpenMMLab 知乎文章:https://zhuanlan.zhihu.com/p/341283833
工程香港中文大学目标跟踪目标检测
1
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

知乎机构

知乎,中文互联网综合性内容平台,自 2010 年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

zhihu.com
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

视频目标检测技术

视频目标检测是从视频而不是图像中检测目标对象的任务。

多目标跟踪技术

多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)主要任务是在给定视频中同时对多个目标进行定位、维持他们的ID、生成他们各自的轨迹。

推荐文章
暂无评论
暂无评论~