李诗萌 路雪编译

CVPR 2018 | 逆视觉问答任务:一种根据回答与图像想问题的模型

一般而言,视觉问答都是输入图像和问题,并期望机器能给出合理的回答。而最近东南大学的研究者提出一种反视觉问答的模型,即给定回答与图像期待机器能提出合理的问题。他们将问题生成视为一个多模态动态推断过程,提出可以逐渐通过部分已生成问题和答案调整其注意力焦点的 iVQA 模型。

随着传统的目标检测和目标识别方法的发展,很多问题已经得到了解决,人们对于解决更具挑战性的问题的兴趣也在激增,这些问题需要计算机视觉系统更好的「理解」能力。图像描述 [31]、可视化问答 [2]、自然语言对象检索 [20] 和「可视化图灵测试」[11] 等都存在要求丰富的视觉理解、语言理解以及知识表征和推理能力的多模态 AI 挑战。随着对这些挑战的兴趣不断增加,人们开始审视能够解决这些问题的基准和模型。发现意想不到的相关性、提供找到答案的捷径的神经网络,到底是针对这些挑战取得的进展,还是只是最新的类似于聪明的汉斯 [29,30] 或波将金村 [12] 这样的矫饰结果呢?

最近对 VQA 模型和基准的分析结果显示,VQA 模型的成功很大程度上是根据所给问题中的数据集偏差和线索所做出的预测结果,这些预测结果几乎与图像内容的理解无关。例如,现有的 VQA 模型不会像人类一样在回答问题的时候「回头」看同一个地方 [6];针对不同图像的同一问题,它们给出的答案是相同的 [1];在根本没有给出图像的情况下该模型也能表现得很好 [2,17]。此外,VQA 模型的预测结果至多依赖问题的前几个单词 [1],模型的成功很大程度上取决于能否利用标签偏差 [13]。

本文采取了不同的方法,并且探索了逆 VQA 任务是否能针对多模态智能提供有趣的基准。逆 VQA(iVQA)任务是输入一组图像和答案,然后提出(输出)一个合适的适用于图像内容和答案的问题。如图 1 所示,我们推测 iVQA 是一个有趣挑战的原因如下:(i)iVQA 模型利用问题偏差比 VQA 通过回答偏差得到高分所利用的问题偏差少(问题偏差越少,就越难利用问题对答案进行分类)。(ii)与 VQA 中的问题相比,它们自己的答案在 iVQA 中提供了非常稀疏的线索。因此,在 iQVA 中,仅从答案推导问题的机会比在 QVA 中从问题推导答案更少。也就是说,iQVA 任务更依赖于对图像内容的理解。(iii)从知识表征和推理的角度看,iVQA 可以提供测试更复杂的推理策略(如反事实推理)的机会。

图 1. iVQA 任务图示:输入答案和图像,以及本论文提出的模型生成的提问排序。

尽管与 VQA 密切相关,但现有的 VQA 模型无法解决 iVQA 问题。这是因为从答案中得到的可参考信息比从问题中得到的更少。此外,虽然答案一般都是由短语或几个单词组成的短句子,但是 iVQA 模型生成的问题应该是由较长单词序列组成的完整句子。iVQA 的关键在于,随着下一个单词的产生,模型有选择地、动态地参与图像的不同区域。这种动态的注意力机制必须以回答和已经生成的部分句子为条件。为此,研究者提出了一种基于动态多模态注意力的新 iVQA 模型,这种模型可以生成不同的、语法正确且内容相关的的问题,这些问题都能匹配所输入的答案。

之前主要使用标准机器翻译指标评估问题生成方法,例如 BLEU、METEOR 等。这些自动指标与人类对问题生成的判断相关,但它们只能从这些模型成功或失败的条件和原因等角度来简单地判断问题生成模型。本文第一次提出具有替代性和互补性的基于排名的评价指标,给定图像和答案,该指标基于 iVQA 模型对替代干扰项中的标注问题进行排序。当使用这种模型时,通过控制干扰项可以更好地理解不同模型的成功和失败。其次,本论文对 iVQA 一对多的性质进行了人工评估,即多个可能的问题都有一样的答案。令人欣慰的是,人工评估的得分与我们提出的新的排序指标是高度相关的。

本文的贡献如下:(1)为高等多模态视觉语言理解的挑战引入新颖的 iVQA 问题。(2)提出了基于 iVQA 模型的多模态动态注意力机制。(3)针对 iVQA 提出了基于问题排序的评估方法论,这有助于判断不同模型的长处和短处。(4)作为 VQA 模型的对偶问题,本文表明 iVQA 有助于提升 VQA 的性能。

图 2:iVQA 模型的整体架构

iVQA 模型的架构如图 2 所示。这个深度网络有三个子网络:一个图像编码器、一个答案编码器以及一个问题解码器。这两个编码器为解码器提供输入以产生与答案和图像内容相匹配的问句。多模态注意力模块(稍后会进行详细介绍)也是个重要的组件,该组件在给定两个编码器的输出和部分问题编码器输出的情况下,动态地引导注意图像的不同部分。

图 3:iVQA 的定性结果。括号内的数字越大,意味着置信度越高。紫色是根据注意力生成的问题,在图 5 中会进行详细说明。

表 1:问题生成在测试集中性能的概览。

表 2:关键的模型组件在验证集上的消融研究(Ablation study)的结果。

图 5:本文所述模型产生的动态注意力图。输入答案:「领结」(顶部)、「沙发」(底部)。因为答案不同,所以在生成输出问题时,模型会生成完全不同的聚焦图。

论文:iVQA: Inverse Visual Question Answering

论文链接:https://arxiv.org/pdf/1710.03370.pdf

摘要:我们提出了视觉问答的逆问题(iVQA),并研究了将其作为视觉语言理解基准的适用性。iVQA 任务的目的是生成与所给图像和答案相关的问题。由于与问题相比答案所含信息更少,且问题可学习的偏差更少,因此与 VQA 模型相比,iVQA 模型需要更好地理解图像才能成功。本文将问题生成视为一个多模态动态推断过程,提出可以逐渐通过部分已生成问题和答案调整其注意力焦点的 iVQA 模型。在评估部分,除了现有的语言指标之外,我们提出了一个新的排序指标。该指标比较了干扰列表中真实问题的等级,这样可以对不同算法的缺点和误差来源进行研究。实验结果表明,本文提出的模型可以生成多样、语法正确、内容相关且与所给答案相匹配的问题。 

理论CVPR 2018CVPR视觉问答东南大学
1
相关数据
注意力机制技术
Attention mechanism

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

生成模型技术
Generative Model

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

知识表征技术
Knowledge representation

知识表示是人工智能的一部分,它关心代理人(agent)如何在决定做什么时使用它所知道的知识, 这是一门将思考作为计算过程的研究。严格来说知识表示和知识推理是同一研究领域密切相关的两个概念,但实际上知识表示也经常用来直接指代包含推理的广义概念,因此在这里沿用后者,即知识表示等价于知识表示与推理。这是一个涉及使用符号来表示一些推定代理人(putative agent)相信的命题集合的研究领域。 但是在另一方面,我们同时不想坚持这些符号必须代表代理人相信的主张。因为实际上代理人可能相信无数的命题,但只有一部分被表示出来。 而弥合所代表的事物与所相信的事物之间的差距将成为推理(reasoning)在知识表示中所承担的责任。因此,推理一般来说是对代表一系列代理所相信的命题符号进行形式化处理,以产生新的表征。 符号需要比它们表示的命题更容易操纵,因此它们必须足够具体,以便我们可以操纵它们(移动它们,拆开它们,复制它们,串起它们) 构建新命题的表征。

机器翻译技术
Machine translation

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

问答系统技术
Question Answering

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

图灵测试技术
Turing Test

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

验证集技术
Validation set

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

推荐文章