阿里云城市大脑三篇论文入选ACM MM(附解读)

据机器之心了解,阿里云城市大脑三项技术研究论文同时入选多媒体领域的顶级学术会议——第 25 届国际多媒体会议 ACM Multimedia(简称 ACM MM),论文作者将于今年 10 月赴美作大会报告。

ACM MM 是全世界多媒体领域的顶级会议,属中国计算机学会(CCF)指定的 A 类国际会议。据 ACM MM2017 评委会介绍,今年会议共收到 675 篇论文,经多重评选,三篇来自城市大脑研究团队的论文被大会录用。据悉,受邀赴美作口头报告的论文占比仅为 7.5%。

这三篇论文都由城市大脑项目组核心团队——阿里巴巴 iDST(Institute of Data Science and Technologies)成员研究得出,分别针对城市大脑所涉及的交通事故、人流轨迹、交通数据样本等问题提出解决办法。

以下是对这三篇论文的详细解读:

 

《时空自编码器的视频异常检测模型》Spatio-Temporal Auto Encoder for Video Anomaly Detection


交通监控场景中,视频中的异常事件具体是指监控视频中观测到的交通事故、违章停车、交通拥堵、车辆逆行等等非常规事件,这些事件会影响正常的交通秩序,因此,对异常事件的检测是城市交通管理和安防领域的重要任务。目前的交通监控系统中,由于摄像头数量众多,仅凭借人力完全无法对于监控视频中的异常事件进行实时检测,因此需要借助计算机视觉技术,对视频中的异常事件进行自动检测。由于异常视频数据非常少,正负样本分布极不平衡,且异常视频的差异性非常大,因此常见的视频事件检测和视频分类模型很难取得良好的效果。因此常见的做法是使用无监督学习的方法,对正常视频数据进行建模,然后对模型的外点(异常数据点)进行检测。

比较传统的方法有 SparseCoding、AutoEncoder 等,近两年也有应用深度学习的算法出现,比如 Stacked AutoEncoder + One-Class-SVM、2D-Conv-AutoEncoder 等。但是这些方法都没有很好地考虑视频序列时序上的特征。我们受动作识别等领域的最新研究成果启发,设计了一种时空自编码器来进行视频异常检测。其核心模型是 3D 自编码器,通过 3D 卷积申请网络对正常视频片段进行特征提取和数据建模。同时,针对交通监控视频的特点,我们在自编码器的解码部分设计了一个新的预测分支,通过对下一段视频进行预测,来增强网络对视频中物体运动趋势的建模能力。


考虑到交通监控异常检测任务的实际场景,一般是场景固定而不断有物体(车辆、行人等)进入并离开画面。我们希望通过增加预测误差来增强网络模型对视频中已有物体的运动趋势进行捕捉学习,而不是预测新物体的出现,因此我们还提出了一种权重递减的预测误差计算方法:


在模型训练完成后,可以对新的视频数据进行检测。如下图所示,第一张是输入网络的视频片段的其中一帧,第二张是模型重建出的视频帧,第三张是两张图片相减得到的重建误差。可以看到,由于两辆车发生事故并停留在马路中央,这种数据在正常数据中是没有的,所以在车辆周围产生较大的重建误差。对于每一个输入网络的视频片段,我们计算所有帧的重建误差的总和,作为这一片段的误差值。通过人为设定阈值,便可以触发异常警报。


我们在真实的交通场景的视频片段上对算法进行了评测,在 AUC 和 EER 两个指标上都超过了目前最好方法。


《基于风格化对抗自编码器的图像生成算法》Stylized Adversarial Autoencoder for Image Generation


在计算机视觉的一个核心应用场景,同人鉴别(person re-identification,即在跨多个摄像头的视频监控场景中准确找到同一个人)上,本文提出的基于多层相似度感知的深度神经网络取得了优异的效果,在经典的大规模 person re-id 公开数据集 CUHK03 和 Market1501 上相比之前的检索精确度的最优结果分别有 7.3% 和 16% 的提升,达到业内最高水平。同时,后续这项技术将应用在城市大脑中,为实际场景下的应用提供强有力的支持。

 

本文提出了一种名为 MSP-CNN 的深度神经网络框架用于 person re-identification。这是一种基于多层相似度感知的深层 Siamese 神经网络,针对网络不同层次特征的特点,设计不同的相似度约束函数进行相应的优化,从而使得不同层次的特征都能进行更有效的学习。同时,该方法避免了传统的 Siamese 网络在推理时效率不高的瓶颈。最后,本文还将分类约束引入进来,与相似度约束一起形成一个统一的网络,最终达到了业界最优的性能。

 

Person re-id 问题的意义

Person re-id 问题是计算机视觉领域的一个经典问题,其定义是在多个不相交的摄像头场景下,任意给定出现在一个摄像头下的某个感兴趣的人,要求在其他摄像头下准确的找到该人。该问题在学术界和工业界一直广受关注。由于不同摄像头下的行人图片在光照、姿态、遮挡、视角等情况下均存在十分大的差异,传统的一些基于 hand-carfted 特征的方法都不够鲁棒。近几年,深度学习技术被广泛的应用于计算机视觉领域,并在 person re-id 问题上也有重要突破。深度神经网络学习到的特征相对于传统特征更加抽象也更加鲁棒,在分类、检测、检索等应用场景下有极大的优势。

 

已有方法的瓶颈

当前使用深度学习来进行 person re-id 研究一般有两类网络模型。一类是 Siamese 网络,它接受成对的图片输入,然后在网络的中间层上将两幅图片的差异性特征刻画出来,然后继续通过卷积的方式抽象该差异性的特征,并最终用该特征进行而分类(即区分两张图片是属于同一个人还是不同的人)。其优点是通过对相似度的刻画而学习到的特征可以较好的描述不同人之间的差异,但缺点也十分明显:即在推理时也要求 pair 输入,当需要匹配的图片非常多时,需要消耗大量的时间,严重影响算法的实际使用价值。

另一种网络是分类网络,即将每一个人看成一个类别,训练一个多分类的网络。它的优点是简单,直接,性能较好。缺点是当人的种类非常多时,该网络用于检索的性能会明显下降,其本质原因是该网络没有应用到相似性的限制进行特征学习。

 

本文框架以及实验展示

因此,本文的出发点是融合了以上两类框架的优势,同时弥补了其劣势。在此基础上,本文还将相似度限制拓展到了不同的层次上,并根据不同层次 feature 的特点(见图 2)自适应的设计不同的相似度度量和损失函数,使得不同层次的特征都可以进行有效的学习。

具体来讲(见图 1),网络的后端,同时进行分类约束和高层相似度约束的学习;而在网络前端,进行低层相似度约束的学习,低层相似度学习采用直接梯度回传的方式,避免了传统的 Siamese 网络提取特征差异的操作,从而在推理时不用依赖成对的输入,有效的提升了算法的时效性能,极大的提升了算法的实用价值。


图 1 算法网络结构


图 2 不同层次 feature 的可视化(低层:稠密,反映局部语义细节,高层:稀疏,反映抽象高层特征)




《基于风格化对抗自编码器的图像生成算法》

近俩年来,对抗生成网络(GAN)的兴起让生成模型又重新回到了大家的视野中,也开始有一些研究者使用 GAN 来生成数据样本,以辅助监督学习中训练样本较少的某些任务。我们在城市大脑的项目中也遇到了这样的问题:车牌识别是智能交通监控系统中的一个很基础的任务,不同于一般的停车场、门禁等场所,监控视频中的车牌图片往往分辨率很低,图片噪声较高,需要人工标注大量的样本进行训练。而人工打标的结果可能会有错误,这些标签噪声也会影响网络的训练。同时,真实车牌数据的获取往往存在数据不平衡的问题,比如在杭州获得的交通视频数据大部分都是「浙 A」的车牌,训练数据的极度不平衡会导致模型过拟合,对于其他城市的车牌识别效果很差。

我们受条件对抗生成网络 (Conditional GAN) 和风格迁移学习 (Style Transfer Learning) 的启发,设计了一种风格化对抗自编码器用来生成大规模训练数据。简单来说,我们用内容提取网络和风格提取网络分别从内容图片和风格图片中提取内容特征和风格特征,将两者进行融合之后,再通过图片生成网络获得一张融合了相应内容和风格的图片。同时还有一个图片分类网络作为 GAN 中的判别器,它需要学习如何区分真假图片(真实的和生成的),而生成网络需要学习优化自己生成图片的质量,使判别器难以区分。用这种对抗的方式进行训练,从而使得生成图片越来越接近真实图片。


网络训练完成后,给定一张真实车牌图片作为风格图片,通过更改内容图片,我们可以得到同样风格的其他车牌字符图片。将字符图片进行组合,便可以获得大量的、有精准标签的车牌图片。通过这种方法,我们将双层黄牌(真实数据较少)的识别任务准确率从 77% 提高至 91%。


除了车牌字符数据集,在通用的自然场景字符数据集 (IIIT5k) 上,我们生成的图片也超过了一般的 GAN 方法。


理论卷积神经网络生成对抗网络阿里巴巴论文理论ACM MM2017
返回顶部