中山大学发布无偏视觉问答数据集KRVQA,论文登上顶刊TNNLS

近期,中山大学人机物智能融合实验室发布了基于常识的无偏视觉问答数据集 (Knowledge-Routed Visual Question Reasoning,KRVQA)。由于自然语言与标注者中自然存在的偏差,现有的算法能够通过拟合数据集内的这些偏差达到很好的效果,而不需要理解对应的文字和图像信息。相关论文发表在国际知名顶级期刊 TNNLS 上。


自然语言处理计算机视觉领域,已经有工作开始探索基于常识的阅读理解和视觉问答问题。这类问题要求算法需要额外的常识才能给出答案。但现有的常识视觉问答数据集大多是人工标注的,并没有基于合适的知识或情感表达进行构建。这不仅导致常识的分布相当稀疏,容易产生解释的二义性,同时还容易引入标注者偏差,使得相关算法仍在关注于增加神经网络的表达能力以拟合问题和答案之间的表面联系。

针对此问题,研究者提出了新的基于知识路由的视觉推理数据集 (Knowledge-Routed Visual Question Reasoning,KRVQA),该数据集基于现有的多个公开知识 / 常识图谱中与现有图像场景图 (scene graph) 相关的部分,通过预先定义的规则搜索图谱中的推理路径,并生成大规模无偏差的问答和推理标注。如图 1 所示,该数据集避免现有数据驱动的深度模型通过过拟合得到高准确率,推动视觉问答模型正确感知图像中的视觉对象,理解问题并整合对象之间的关系和相应常识回答问题。


文章链接:https://arxiv.org/abs/2012.07192

数据集链接:http://www.sysu-hcp.net/resources/

图 1:KRVQA 测试基准的样例示意。

具体而言,基于通过生成推理路径,从图像场景图或知识库中选择一个或两个三元组进行多步推理,并通过约束使用的三元组,将知识从其他偏差中分离出来,并平衡答案的分布,避免答案歧义。两个主要的约束为:

1. 一个问题必须与知识库中的多个三元组相关,但仅有一个三元组与图像相关。

2. 所有的问题都基于不同的知识库三元组,但训练集和测试集拥有相同的候选答案集合。


约束 1 能强制视觉问答模型正确地感知图像,而不能仅仅根据给定的问题猜测知识。约束 2 则能避免现有方法通过训练集中的样本来拟合知识库,强制模型通过外部知识来处理未见过的问题,促进模型在泛化性上的研究。

研究者对各种知识库编码方法和最新视觉问答模型进行了大量实验,结果表明,在给定知识库的情况下,是否给定问题相关的三元组的两张情况间仍然会存在较大的差距。这说明提出的 KRVQA 数据集能很好体现现有深度模型在知识推理问题上的不足。

KRVQA 数据集

该数据集基于从自然图像场景图和外部知识库中提取的一个或两个三元组,组成推理结构,并以该结构为基础通过模板构建问题答案对。

给定一个图像,研究者首先合并其场景图和外部知识库以形成和图像相关的知识图。该数据集利用现有的公开标注数据构建数据集,包括使用 Visual Genome 数据集中图像场景图标注以获得图像中的所有对象 / 关系三元组, 使用 WebChild、ConceptNet、DBpedia 等一般常识知识库获取图像信息以外的常识三元组。场景图和知识库中的三元组都包含一个主语、一个关系和一个宾语共三个项。如果图像场景图中的物体和知识库某个三元组中一项的名称相同,这两项就将合并。在合并所有名称相同的项之后,可以得到一个与图像相关的知识图。研究者利用其中包含的三元组来生成复杂的问题——答案对。

然后从图中提取一条路径并根据路径提出一阶或二阶问题。推理路径的提取由一组层级化的基本查询的构建。一个基本查询将告知模型在已知主语 A,宾语 B 和关系 R 中的其中两个时,需要去哪个信息源取出第三个信息。例如,表示需要模型从知识库中找到包括主语 A 和宾语 B 的三元组,并将三元组的关系 R 取出作为输出。有如下 6 个基本查询
:给定主语 A 和宾语 B,从图像中获得它们的关系 R。
:给定主语 A 和关系 R,从图像中获得宾语 B。
:给定宾语 B 和关系 R,从图像中获得主语 A。
:给定主语 A 和宾语 B,从知识库中获得它们的关系 R。
:给定主语 A 和关系 R,从知识库中获得宾语 B。
:给定宾语 B 和关系 R,从知识库中获得主语 A。

通过将每个基本查询的输出作为下个基本查询的输入,便可以组成问题的层次化推理结构,并作为标注信息。例如,“What is the object that is on the desk used for?”的需要从图像中查询得知是什么在桌子上,并在给定前一步查询得到的物体 A 和关系 “UsedFor” 的情况下,从知识库中得到桌子上的物体的用处。

最终,根据提取的三元组和模板,例如 “(man, holds, umbrella)” 和模板 “what is <A> <R>? <B>” 生成问题答案对“what is the man holding?Umbrella”。

表 2 不同问题类型及对应模板实例

数据集的统计特性

数据集总共包括 32910 个图像,193449 个知识三元组和 157201 个问题答案对。其中包括 68448 个一步推理问题和 88753 个二步推理问题,以及 87193 个外部知识相关问题和 70008 个外部知识无关问题。

知识库无关的问题中,候选答案的数量为 2378。候选答案出现的频次在数据集中表现出了长尾分布。这使得模型必须准确解析图像,找出物体和它们的关系以正确处理图像中显著性不高的物体。知识库相关的问题中,候选答案的数量为 6536,研究者通过限制每个答案的最大出现次数,使得知识库相关的问题的答案分布均匀,避免模型拟合知识库。验证和测试集中 97% 的答案存在于训练集中,使得之前基于分类的视觉问答方法也能应用在该数据集上。

图 2 知识相关问题的答案分布

图 3 知识无关问题的答案分布

实验

研究者通过评估多个最新视觉问答模型的性能以及包括知识图嵌入和问题编码器预训练等各种知识嵌入方法,以检验提出的 KRVQA 数据集的性质。其中视觉问答模型包括:

  • Q-type。对于每个问题,使用其问题类型中最频繁的训练答案作为输出答案。

  • LSTM。使用双向 LSTM 对问题进行编码。并仅用问题编码预测最终答案。

  • 推理路径预测。使用双向 LSTM 对问题进行编码,并以全监督方式训练和预测推理路径和问题类型,以此从场景图和知识库中检索正确答案。

  • Bottom-up attention。该方法取得了 2017 年视觉问答挑战赛的第一名方法。具有视觉问答模型的经典架构。

  • MCAN。模块化共同注意网络(MCAN)为目前在 VQAv2 数据集上不使用额外数据得到最高的性能的方法,同时具有与在各种视觉语言任务上预训练的最新模型相似的网络架构结构。



表 2 不同视觉问答方法在 KRVQA 上的准确率

如表 2 所示,基线方法 「Q-type」和「LSTM」仅根据问题预测答案,准确率大幅低于其他方。所有的方法在两步问题上的表现都与一步问题有较大差距,在知识相关问题上的准确率也更低。这些结果表明,KRVQA 数据集中的问题需要结合图像上下文和知识进行推理回答,多跳推理对现有方法仍具有挑战性。

知识编码与预训练

通过在整个知识库上训练,RotatE 可以对知识库中所有的实体和关系进行编码,使得针对三元组有。研究者使用 RotatE 对知识库三元组编码,并与 VQAv2 数据集上的效果最好之一的 MCAN 基线模型融合,如图 4 所示。

图 4 嵌入知识库编码的 MCAN 模型

最近的研究表明,通过对大量文本的训练,语言模型可以在一定程度上对知识进行编码。受此启发,研究者同样在知识文本上预训练问题编码器,对知识进行隐式编码。具体地说,MCAN 的自注意问题编码器将知识三元组的对应文本作为输入,然后如图 5 所示预测被掩盖的文本字符或相应的知识三元组。
        

图 5 用以隐式编码知识库的预训练任务示意

在表三上所示的 KRVQA 结果显示,在给定标定的三元组或查询实体时,模型能大幅提高在知识相关问题上的结果。而在给定除查询实体外的标定三元组 “+knowledge inference” 时,由于一副图像可能对应多个知识三元组,模型在推理图像答案时仅仅取得了少量提高。两个预训练任务则仅仅相对基线方法有稍微的提高。这显示了 KRVQA 中知识库的重要性,同时说明当前模型在正确感知图像内容以及编码知识库上的不足。

表 3 不同知识库编码方法与 MCAN 基线方法的准确率

理论TNNLS视觉推理中山大学
相关数据
视觉问答技术

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

常识知识库技术

常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

视觉推理技术

视觉推理是指为了得出某个结论而操纵一个人对一个物体的心理印象的过程。

推荐文章
暂无评论
暂无评论~