腾讯AI Lab计算机视觉团队负责人刘威博士详解CVPR 2017入选论文

By 高静宜2017年8月11日 11:27
2016 年 4 月,腾讯 AI Lab 正式成立,结合腾讯的业务场景,针对计算机视觉、语音识别、自然语言处理和机器学习四个方向进行人工智能领域的相关研究。其中,计算机视觉团队是较早组建的研究团队之一,由计算机视觉和机器学习专家刘威博士带领十余位基础研究科学家,具体围绕大规模图像分类、视频编辑与生成、时序数据建模和增强现实等项目展开研究。该团队专注于中高层视觉问题,加深可视结构数据理解,同时对计算机视觉+NLP、计算机视觉+信息检索等学科交叉领域具有浓厚的研究兴趣。

 

今年,腾讯 AI Lab 计算机视觉团队研究成果颇丰,有六篇论文入选了计算机视觉领域全球顶级学术会议 CVPR 2017。为此,机器之心采访了腾讯 AI Lab 计算机视觉团队负责人刘威博士及团队成员,对论文中的研究工作进行了详细的解读。


一、关于论文《Real Time Neural Style Transfer for Videos》

 

机器之心:这篇论文中,团队提出了一种全新两帧协同训练机制,让卷积神经网络能够在做像素级别的视频编辑时保持时域一致性。能否具体介绍一下这个过程是如何实现的?

 

腾讯 AI Lab:在每一轮训练时,我们使用了连续两帧的视频画面。在计算损失函数时,除了风格化相关的内容损失和风格损失,还首次引入了时域损失。时域损失用于约束连续两帧的输出时域一致,两帧像素之间的对应关系通过预计算的光流获得。在训练完毕后,则不再需要计算光流。我们提出的算法在保证视频风格迁移能够实时完成的前提下,大大提升了视频的时域一致性。

 

机器之心:这种算法的性能表现如何,在数据测试集上可以达到什么样的效果?

 

腾讯 AI Lab:在提供光流真值的 Sintel 数据集上,相比直接每帧应用图像风格迁移的方法 [ECCV 2016 Johnson et al.],我们的方法测试误差减小约 27%~44%。在其他没有提供光流真值的数据集上,也可以明显观察到时域一致性提升。

 

机器之心:您认为这项技术的应用前景如何?如何发挥其潜在的价值?

 

腾讯 AI Lab:我们的方法除了能应用在视频风格迁移上,也能够推广至其他同类型的视频编辑工作。视频实时迁移功能目前已经在 QQ 手机版本上线运行,算法也将依据未来应用形态变化做进一步调整。

 

二、关于论文《WSISA: Making Survival Prediction from Whole Slide Histopathological Images》

 

机器之心:能否具体介绍一下论文提出的生存预测方法 WSISA 是如何基于全尺寸、无标准的病理图片完成预测过程?

 

腾讯 AI Lab:利用 WSISA 进行病人生存预测总共分为四步:1)大规模随机采样;2)聚类并自动筛选对生存预测有区分性的 cluster;3)进行病人层次的全局特征估计和 4)进行病人层次的生存预测。其中,大规模随机采样是后续流程的基础,聚类并自动筛选有区分性的 cluster 可以替代医生标注的工作,病人层次的全局特征估计克服了传统方法仅关注局部信息的弱点。

 

机器之心:目前的预测准确率达到什么样的水平?这项技术如何在医疗领域进行应用,可以为分别为医生和患者带来哪些便利?

 

腾讯 AI Lab:SISA 在两类癌症(肺癌和脑癌)的三个不同数据集上均超越了传统方法,CI 值(Concordance index, 排序一致性)分别平均提升 26%,10% 和 12% 以上。A3: WSISA 的提出不仅可以应用在病人的生存预测上,而且可以应用在其他基于十亿甚至百亿像素级病理图像的诊断预测上(如癌症分级),它极大地减轻了医生的负担,为更加精准的医疗诊断及个性化的治疗方案提供量化指标,从而病人可以得到精准的医疗服务。

 

三、关于论文《SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning》

 

机器之心:SCA-CNN 的设计思路什么?这个网络模型解决了图像文本生成的哪些问题?

 

腾讯 AI Lab:在研究思路上,我们认为空间注意力模型不能很好地描述人眼的视觉注意力机制,尤其是在图像描述生成这一目前热门的视觉任务中。因此,需要引入图像卷积神经网络中的通道信息来进一步建模注意力机制。

 

我们提出的 SCA-CNN 模型,是一个融合了空间上和通道上的注意力的卷积神经网络。针对图像描述生成任务,SCA-CNN 基于卷积网络的多层特征来动态生成文本的描述,进而建模文本生成过程中空间上与通道上的注意力机制。

 

机器之心:与现有的自动生成图像文本描述的算法方法相比,该网络有何优势与不足?与世界前沿算法相比,表现如何?

 

腾讯 AI Lab:与现有的基于注意力的编码器-解码器结构的网络相比,SCA-CNN 特别考虑了通道上的注意力问题,因此能够更好地描述在文本生成过程中图像空间与通道上的信息。

 

在三个公开的数据集 (flickr8k, flickr30k, mscoco) 上的测试结果证明,相较于传统的基于注意力模型的图像描述生成, 我们提出的 SCA-CNN 模型能够显著提高图像描述生成的质量。


四、关于论文《Deep Self-Taught Learning for Weakly Supervised Object Localization》


机器之心:这篇论文提出的深度自我学习方法是如何打破弱监督物体定位的训练样本质量的壁垒?该技术对弱监督学习的精确度、计算速度等性能带来怎样的影响?

 

腾讯 AI Lab:这篇论文提出了从较少的、质量低下的数据开始的模型学习算法。模型在不断学习后,性能增强,从而能自主地选择更多数据、并选取其中质量更高的进行模型训练,提升模型性能,从而实现模型的自主学习。这种依靠模型自身达到数据从少到多、从差到好的自主获取过程,有效打破了弱监督学习数据质量低的瓶颈。

 

我们创新性地提出依靠预测分数的相对增量来指导获取更高质量训练数据,有效减轻了质量低下的训练数据对模型的影响,防止模型因对这些数据过拟合而陷入局部最优点。该方法因为能动态获取更多更高质量的训练数据,比使用固定的质量低下的训练数据学习到的检测器模型性能大大增强,额外时间开销也很小,并在 PASCAL VOC 07 和 12 数据集上超过其他当前最先进的几种方法。

 

五、关于论文《Diverse Image Annotation》

 

机器之心:能否介绍一下 DIA 算法是如何最大程度地利用利用语义关系,同时降低冗余的?

 

腾讯 AI Lab:我们先从 WordNet 中挖掘了图像标签之间的语义拓扑关系和同义词组,随后将合并同义词组并分裂多义标签,进而提出了权重语义路径这一全新概念,使得每条语义路径能够明确地表达一个完整的语义信息。在此基础上,我们规定在标签采样过程中,一条语义路径上最多只能有一个标签被选中来标注一幅图像,从而最大限度地避免了标签之间的语义冗余,因此鼓励了标签多样性。

 

机器之心:语义层级的多样性及质量对 DIA 算法有怎样的影响?下一步研究方向?

 

腾讯 AI Lab:语义层级多样性和质量对 DIA 的算法的影响在于,我们通过对人为标注结果的观察和统计发现,人在标注过程中充分考虑了标签之间的语义关系从而保证了语义多样性。而且人的标注结果与我们所定义的语义路径高度吻合,这就验证了我们所定义的语义路径的高质量,也是 DIA 算法能够产生与人的类似标注结果的关键所在。

 

未来,我们计划将语义路径嵌入到模型学习阶段,而不仅仅是目前所涉及到的采样预测阶段,这将更加充分地发挥语义路径的作用。

 

六、关于论文《Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images》

 

机器之心:能否介绍一下本文中提出的物体三维重建方法是如何基于曼哈顿结构与对称信息进而达到较好的效果?与单张图片相比,本文提出的三维重建方法在针对多张图像时存在什么异同?

 

腾讯 AI Lab:这篇论文是由腾讯 AI Lab、约翰霍普金斯大学及加州大学洛杉矶分校合作发表,主要讨论了如何从二维图像中进行人造物体(如汽车、飞机等)的三维结构重建问题。事实上,绝大多数人造物体都有对称性以及曼哈顿结构,后者表示我们可以很容易在欲重建的人造物体上找到三个两两垂直的轴。例如,在汽车上,这三个轴可为两个前轮、两个左轮及门框边缘。

 

论文中首先讨论了基于单张图片的物体三维结构重建,并证明了仅用曼哈顿结构信息即可恢复图像的摄像机矩阵;然后结合对称性约束,可唯一地重建物体的三维结构。在单张图像重建中,遮挡和噪声等因素会对重建结果造成很大影响。所以论文后半部分转到了多张图像基于运动恢复结构(Structure from Motion, 简称 SfM)及对称信息的物体三维重建中。事实上,SfM 算法涉及到对二维特征点进行矩阵分解,而添加对称性约束后,我们并不能直接对两个对称的二维特征点矩阵直接进行矩阵分解,因为这样不能保证矩阵分解得到同样的摄像机矩阵以及对称的三维特征点坐标。所以,论文通过进一步利用对称性信息进行坐标轴旋转解决了这个问题。实验证明,该方法的物体三维结构重建及摄像机角度估计均超出了之前的最好结果。


七、关于团队

 

机器之心:能否介绍一下目前腾讯 AI Lab 计算机视觉团队的现状?

 

刘威:目前我们的团队有十多位基础研究科学家,大多拥有国内外院校博士学位,并与一个较大的应用工程师团队紧密合作。我们很注重对青年研究者的培养,团队中应届毕业的博士接近半数,也将继续在海内外招募不同级别的优秀研究者。另外,我们的项目也吸引了哥伦比亚和清华等海内外知名大学的优秀实习生参与。

 

机器之心:如何看待目前计算机视觉领域技术的发展以及未来在哪些领域具有较大的潜力?

 

刘威:2012 年深度学习技术的兴起,让计算机视觉自此有了长足发展。除了物体检测与识别这类经典的中层视觉问题,在图像去噪、去模糊、超分辨率和语义分割等低层视觉问题解决上也有了很大的飞跃。从最近两届 CVPR 广受关注的论文来看,未来 CV 领域的研究除了会继续提升经典视觉问题的算法性能,伴随着新数据集设计及细分研究领域上的新挑战,一些有趣且有挑战的研究问题也将会受到更大关注。我个人认为,视觉+NLP 的交叉将持续升温,视频分析理解(包括视频分类、视频物体分割等)的研究将再上一个台阶。



声明:本文由机器之心原创出品,版权归作者所有,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。