CVPR 2017最新论文:使用VTransE网络进行视觉关系检测

知识表示学习的思想(TransE)已经被成功应用于视觉关系提取(Visual Relation Extraction),提交 CVPR 2017 的新论文《Visual Translation Embedding Network for Visual Relation Detection》提出的 VTransE 方法是在这方面所迈出的重要一步。清华大学计算机系助理研究员刘知远对此评论说:「视觉关系和语义关系既有重叠又有互补,未来会有很多有趣的问题值得探索。」机器之心对本论文进行了摘要介绍,论文全文可点击文末「阅读原文」下载。


论文:Visual Translation Embedding Network for Visual Relation Detection


5-1.jpg


摘要:「一个人骑自行车」和「在汽车旁边骑自行车」这样的视觉关系能为理解图像提供综合场景,也在计算机视觉和自然语言的连接上展现了其作用。然而,由于建模主谓宾关系三元组的组合复杂性(combinatorial complexity),很少有工作研究定位和预测视觉关系。基于最近知识库的关系表征学习和卷积网络检测物体的发展,我们提出了一种用于视觉关系检测的视觉转化嵌入网络(VTransE,Visual Translation Embedding network)。VTransE 在低维关系空间确定物体关系,这种关系可被建模为简单的向量转换,即主语+谓语≈宾语。我们提出一种全新的特征提取层,能够以全卷积的方式完成物体关系知识(object-relation knowledge)的迁移,其支持在简单的前向\后向通路中训练与推理。据我们所知,VTransE 是首个端到端的关系检测网络。我们在两个大型数据集(Visual Relationship 和 Visual Genome)上证明了 VTransE 相比其他顶级方法的有效性。要注意,虽然 VTransE 只是一个纯视觉模型,它仍然可与 Lu 的带有语言先验知识的多模态模型媲美。


5-2.jpg

 图 1:在此论文中,我们的重点是检测视觉关系(中间一层的虚线框)。不同于低层视觉和高层语言之间的直接关系,视觉关系提供物体交互间的直接理解。这能为图像注释、问答系统这样的应用提供更深的语义信息。


5-3.jpg

图 3:VTransE 网络概述。输入图像首先通过物体检测模块(也就是一个卷积定位网络),输出一系列检测到的物体。然后,检测到的物体被输入到关系预测模块进行特征提取和视觉转换潜入。特别地,物体的视觉特征使用 Bilinear Interpolation 从最后的卷积特征映射提取出来。

入门神经科学论文CVPR 2017理论计算机视觉
返回顶部