编者按:随着社交媒体及数字采集设备的普及,网络上存在着海量的视频及图像数据,如果能够充分利用这些数据,将促进相关计算机视觉任务的发展。然而这些数据却面临着数据样本分布不均衡、以及样本无监督等问题,因此如何在样本量不足甚至零样本、以及样本无标注的情况下,充分利用社交媒体中的数据,成为了计算机视觉领域的开放式问题。本文中,来自复旦大学大数据学院的付彦伟副研究员将就这一问题进行讨论。大讲堂特别在文末提供文章以及代码的下载链接。
![](https://image.jiqizhixin.com/uploads/editor/8608d17d-9136-4cb5-8d20-f1073b5c548d/1530004085260.png)
![](https://image.jiqizhixin.com/uploads/editor/a9e8156f-ffd3-4258-b7b1-e4719cec1310/1530004087792.png)
首先介绍一下我本人,我博士就读于伦敦玛丽女王大学,导师是向涛教授和龚少刚(Shaogang Gong)教授。之后在匹兹堡CMU的Disney Research做博士后。
![](https://image.jiqizhixin.com/uploads/editor/445e6e91-bbe8-4edf-901c-c8e8f2476cf6/1530004085311.png)
我今天介绍的内容可以概括为四个单词:Overview,Definition,Embedding,More.
Overview
![](https://image.jiqizhixin.com/uploads/editor/61442f57-5507-41c8-b5d4-3fc0a2ce3a67/1530004085182.png)
![](https://image.jiqizhixin.com/uploads/editor/44160bba-cd6e-4f6c-9dd8-2f2ee7543dcf/1530004085645.png)
对社交媒体中的大数据进行分析,其数据来源分为两个部分,一是YouTube,Flicker和Instagram上的图像视频数据,二是Facebook,Wechat,Google+上的用户关系数据。这二者都属于社交媒体分析中的大数据,是我研究的主要topic。
![](https://image.jiqizhixin.com/uploads/editor/9419bdcc-6160-41c4-b4d4-f3a6e332396c/1530004086632.png)
首先来说对图像、视频数据的分析,众所周知,这种数据量非常庞大,可以用来做零样本、小样本以及开集条件下的图像分类,动作识别,活动识别,以及感情识别。基于以上四个问题,我主要介绍下面几个工作:
![](https://image.jiqizhixin.com/uploads/editor/94feccd2-9ac5-4649-bb41-22da163a734f/1530004086176.png)
![](https://image.jiqizhixin.com/uploads/editor/079013f8-a8fa-40fb-a3c9-e603d943eaff/1530004086308.png)
对于关系型数据,我们从统计里的ranking和概率图模型的角度来分析更多类型的问题,比如crowdsourcing ranking on Internet和social network。对于这类问题,也是要分析one-shot、zero-shot等条件下的识别,我们也做了一些工作:
![](https://image.jiqizhixin.com/uploads/editor/07dc58b5-3a54-447b-8991-794863355858/1530004086891.png)
Definition
![](https://image.jiqizhixin.com/uploads/editor/72e7604c-835f-4acf-9bc2-b356c8ae71af/1530004087132.png)
![](https://image.jiqizhixin.com/uploads/editor/6904d3ae-bc77-4b93-97c8-f25039230744/1530004087274.png)
首先说一下对one-shot,zero-shot,open-set recognition的定义。对于识别任务而言,人类通过视觉系统和听觉系统获取图像信息和声音信息,再经人脑处理得到识别结果。这就启发我们去做监督识别。
![](https://image.jiqizhixin.com/uploads/editor/895a17c3-2fd8-4dc5-ab00-69ab7cd246e5/1530004087570.png)
深度学习将传统方法从训练数据、低层次特征提取、特征编码和池化再到大规模语义建模的过程变为端到端的学习过程。但是大千世界芸芸众生,能收集到的样本只是一小部分,尤其人类可以动态构造一些新类别,因此需要收集一些新数据来训练模型。
![](https://image.jiqizhixin.com/uploads/editor/dd3c43e2-1677-4965-a437-eb542071f5e1/1530004087638.png)
One-shot learning 是基于监督学习的,在某个空间(如视觉空间),根据语义标签训练相应的分类器,因为training inference较少,所以称之为one-shot。但是one-shot learning不能识别从未见过的物体类别,这就启发了最近的zero-shot learning。
![](https://image.jiqizhixin.com/uploads/editor/7f5e2410-30e7-4ab8-add8-3882f4534fea/1530004087703.png)
![](https://image.jiqizhixin.com/uploads/editor/20a4405d-efdd-428c-b1cc-2afe668fdfc8/1530004088161.png)
Zero-shot learning是为了识别未知类别的样本,其思想是迁移一些已知的辅助类别语义知识。如图黑色字体标签就是辅助类别,我们可以根据已知的辅助类别样本来学习从视觉空间到语义标签的映射,所有测试样本都会被投影到该语义空间,然后被赋予相应的标签信息,这里的关键是如何选取语义标签。
![](https://image.jiqizhixin.com/uploads/editor/09320952-6cae-4d72-9297-857742c38d56/1530004088356.png)
如图所示,一般的语义标签大体上可以分为两类,一类是Semantic Attributes(语义属性),它具有很好的解释性但需要大量的人工标注,而另一类是Semantic Word Vectors(语义向量),可以从大量文本中训练出来,并不需要人工标注,并有大量的free vocabulary。
![](https://image.jiqizhixin.com/uploads/editor/62a34e14-caf6-45e4-b4f1-088971ee4b35/1530004089024.png)
Attribute learning识别的未知类别数量一般并不大,可以把这类思想推广到open-set recognition,open-set recognition就是从大量图片词汇类别中识别图像视频的语义标签。
![](https://image.jiqizhixin.com/uploads/editor/0ad55fbf-4331-4004-8fd2-c07b2948d75b/1530004088690.png)
以识别问题为例,总结一下零样本、小样本以及开集条件下的任务。也可以扩展到其他类似问题。
有监督学习:能够取得较好的表现效果,但需大量人工标注;
小样本学习(one-shot, N-shot, Few-shot):每类只需很少样本,但也需大量人工标注;
零样本需学习:不需要样本标签,但是目标类别数受限;
Open-set Learning:不需要样本标注,有大量的样本库。
![](https://image.jiqizhixin.com/uploads/editor/10cc4903-2dd3-4b01-8bfe-197685a4269c/1530004088584.png)
另一方面我们可以利用free-vovabulary词汇来帮助整个学习过程,比如图像被映射到语义空间,在这个空间中,只知道unicycle或tricycle,在零样本学习情况下,我们更倾向于把它归为unicycle,因为它靠近unicycle的语义原型。
而空间里面如果含有其他的free vocabulary,比如segway,recumbent bicycle,测试样本如果和它们靠的更近,那么可能就不能把这个样本认为是unicycle,也就是说通过这个free-vocabulary,可以更新这个从特征空间到语义空间的matrix。
Embedding
![](https://image.jiqizhixin.com/uploads/editor/14de67b2-5c94-4459-a211-905778df79e3/1530004088477.png)
![](https://image.jiqizhixin.com/uploads/editor/ab3f8bee-a1bc-40de-be95-77566109a762/1530004088774.png)
下面说一下其他的工作embedding,再从实际来看,人类摄入很多文章和照片,对于文章和图片都可以训练很好的深度学习模型,那么人脑会不会形成统一的embedding space呢?假设这个观点是成立的,那么研究出发点就是如何做mutli-view/multi-modal embedding。
![](https://image.jiqizhixin.com/uploads/editor/625a4398-b2dc-4f7d-a766-b6b5723f4f52/1530004089643.png)
我们第一个工作是Learning multi-modal latent attributes。
![](https://image.jiqizhixin.com/uploads/editor/f77e4cba-9e85-4323-a6b4-f06112191cbc/1530004089868.png)
回顾一下属性学习,从浅层特征到属性,再到类别,这里的关键是属性,但是属性一般较依赖于人工的标注,对属性的定义常常有很多挑战,比如不完整、稀疏或者比较模糊,这就依赖从数据中挖掘属性。
![](https://image.jiqizhixin.com/uploads/editor/44af981c-ef5f-4905-8b42-f197aec3d833/1530004090209.png)
这里给出一些例子,这是我们的数据集,模型可以从这些类别中挖掘对应的latent attribute。
![](https://image.jiqizhixin.com/uploads/editor/79aa6767-c8bc-4ad1-9223-11cb068a4ff2/1530004090101.png)
基本的模型结构如图所示,通过multi-modal latent attribute topic model来建模视频、音频等模态数据之间的关系,这里的属性可以是用户自定义的,也可以是潜在的属性,我们可以在attribute claim 中加以限定,通过topic挖掘对应的信息。
![](https://image.jiqizhixin.com/uploads/editor/dbf811b2-006a-43cf-807d-28c9403de1b0/1530004090434.png)
![](https://image.jiqizhixin.com/uploads/editor/f9d71c12-285d-44a7-b1af-6bbf91636c30/1530004090678.png)
我们在USAA数据集和AwA数据集上进行了实验,结果如上表所示,把属性当作video attention的话,可以做多任务学习。
![](https://image.jiqizhixin.com/uploads/editor/35dea2e0-b332-434c-b84c-9f520270e1f0/1530004090966.png)
对于不同的用户自定义属性,结果也非常好。
![](https://image.jiqizhixin.com/uploads/editor/6da15988-6fe5-40ed-bf26-6ab8059fe154/1530004090889.png)
在这个框架下,还可以做one-shot learning。
![](https://image.jiqizhixin.com/uploads/editor/8830e6d1-e9c4-41ca-ae3d-65f3cfb0df87/1530004091115.png)
还可以可视化哪些浅层特征对应哪些属性,是用于自定义的还是自身潜在的属性。
![](https://image.jiqizhixin.com/uploads/editor/b49101fe-102d-463a-a7bf-670ddb24a6d5/1530004091030.png)
第二个工作是multi-view embedding。
![](https://image.jiqizhixin.com/uploads/editor/60957b5f-474b-41d6-9b9c-762c0168fdf9/1530004091184.png)
再回顾一下这个框架,从浅层特征到属性、类别。
![](https://image.jiqizhixin.com/uploads/editor/7fe946af-2710-4cbb-b01c-de2e0cecbe41/1530004092054.png)
在零样本学习中,有两个问题。第一个是projection domain shift问题,比如,斑马和猪,斑马是辅助训练数据,而猪是目标数据,它们都有hasTail这个属性,但是它们的视觉属性是非常不一样的,把从辅助数据中学习到的浅层特征直接映射到未知数据上,一定会出现domain shift的问题,而这个domain shift其实是一个多维问题,我们称之为projection domain shift问题。
![](https://image.jiqizhixin.com/uploads/editor/fc695966-5e4b-43b3-9d4a-38facce5bb14/1530004092145.png)
第二个问题是prototype sparsity问题,也就是每一个新类其实只有一个attribute prototype,那么就需要考虑是否能利用数据本身的信息,比如manifold information,第三个是embedding multiple representations,我们现在已有semantic attribute,semantic word vector,考虑把它们嵌到一起。
![](https://image.jiqizhixin.com/uploads/editor/e1ac264b-3596-4ccf-b0e9-abb7a7b3932f/1530004093166.png)
基于这三个问题,我们提出了一个算法框架。假设在目标数据上可以得到不同的子空间,每一个空间代表每一个view,利用一个multi-view CCA把数据投影到CCA space,在这个空间里面构造一个graph或者hyper graph,然后进行ranking,这样就可以做one-shot learning,zero-shot learning,甚至open set learning。
![](https://image.jiqizhixin.com/uploads/editor/4728d57e-2df2-47ce-b8d3-4599079b65d1/1530004092794.png)
在三个标准测试集上的结果显示效果非常好,尤其是AwA,这是2014年的结果,AwA的结果已经能达到80.5。
![](https://image.jiqizhixin.com/uploads/editor/861824e2-ae9b-4936-a57b-207678ebd0ed/1530004096253.png)
通过可视化可以得知,在原始空间中,可能有些测试类别是无法分开的,但是在embedding space中这些类别是可以区分得非常好。
![](https://image.jiqizhixin.com/uploads/editor/fdf0388c-8648-42cd-97f6-28449164cda2/1530004092855.png)
下面来介绍一下Pairwise Graph Embedding。
![](https://image.jiqizhixin.com/uploads/editor/5913e1c7-8cb3-4509-b5bb-61c6722e21b8/1530004093270.png)
关系类型的数据标注,可以统称为Subjective visual properties。比如比较两幅图像哪一个更漂亮,哪一个更有意思,哪一个笑得更多一些,这是更好的语义表示,它的歧义性更小,更有利于迁移学习。我们定义subjective visual properties,类似的问题包括image/video interestingness & aesthetics,以及image memorability & image/video quality等。
![](https://image.jiqizhixin.com/uploads/editor/51f2863a-44db-4205-af12-6f10077bf480/1530004093337.png)
对于这类数据,我们一般是要做Crowdsourced Paired Comparisons来收集它的标注信息,这里的优势在于,标注起来更节省成本,可以标注大规模的数据集。这里有个问题,一个是outliers,另一个是sparsity,因为毕竟是一个稀疏空间。
![](https://image.jiqizhixin.com/uploads/editor/13e44e6b-bbda-400c-917d-25de94b40df7/1530004093478.png)
我们提出了一个robust learning to rank框架来解决上述两个问题,这里图像是一些合成样本,左边是若干人脸,比较他们的年龄,我们收集了一些temporation,绿色是predict,红色是outline,根据得到的信息预测ranking。
![](https://image.jiqizhixin.com/uploads/editor/e386e78d-0a94-4aef-9f9c-38cba842c291/1530004093406.png)
我们可以构造一个有向图,在这个有向图上,我们可以outline,用form乘Lasso,这里的gamma是一个outline variable,叫incidental parameter。
![](https://image.jiqizhixin.com/uploads/editor/e4422520-90bb-4e50-9c45-03df93cdc770/1530004094246.png)
所以我们提出了一个Preconditioned Lasso方法。
![](https://image.jiqizhixin.com/uploads/editor/8bb79036-f9fc-4dbb-9d4b-458134f53937/1530004094653.png)
我们的解法是用Regularisation Path,左边蓝色点对应inline,红色点对应outline,如果check regularisation path会发现,从右到左变换拉姆达值的时候,outline会首先出现,所以就可以对所有这些点进行排序,然后top就是outline。
More
![](https://image.jiqizhixin.com/uploads/editor/aa7a1491-7faf-4b72-9a3b-1a9e076635be/1530004094698.png)
最后简单回顾一下我们其他的一些工作。
![](https://image.jiqizhixin.com/uploads/editor/3fb75583-4ff1-49e8-b761-38791af3f307/1530004095326.png)
视频理解,通过深度学习来embedding 目标或者场景,做action,activity,one-shot learning,zero-shot learning。上图为video emotion understanding的工作。
![](https://image.jiqizhixin.com/uploads/editor/036e5703-afa3-402a-83d2-e863252eb71f/1530004095417.png)
以及如何利用概率图模型来自动生成海报。
![](https://image.jiqizhixin.com/uploads/editor/c915e339-80fd-43c6-b960-7d26d3cc7446/1530004095500.png)
最后,分享一个我们建的发型数据集,其中收集了64种不同的发型,大约三万张不同人脸标注。
![](https://image.jiqizhixin.com/uploads/editor/29bbf719-0522-4bc4-aa12-d5352fcd4f8d/1530004095550.png)
文中引用文章的下载链接为:
https://pan.baidu.com/s/1i5KTjXr