结合符号与连接,斯坦福神经状态机冲刺视觉推理新SOTA
在论文《Learning by Abstraction: The Neural State Machine》中,斯坦福大学研究人员提出一种结合符号主义和连接主义的模型——神经状态机(Neural State Machine),旨在抹平符号主义和连接主义之间的鸿沟,并对二者进行优势互补,从而更好地完成视觉推理任务。给定一张图像,研究者首先预测了能够表征自身潜在语义且用作结构化世界模型的概率图。然后,他们对概率图进行时序推理,并迭代遍历其节点,以回答给定问题或者得出新推理。相较于大多数设计中与原始感官数据密切交互的神经架构,研究者提出的 NSM 模型在一个抽象的隐空间中运行,将视觉和语言模态转化为基于概念的表征,所以增强了透明性和模块性。
在实验中,研究者在 VQA-CP 和 GQA 数据集上进行 NSM 模型评估,这两种最近发布的 VQA 数据集包含语义合成性、多步推理和各种推理能力。实验结果表明,NSM 模型在两种数据集上均实现了 SOTA 效果。接着,在进一步的实验中,研究者阐明了 NSM 模型在多任务场景下具有强大的泛化能力,包括概念的全新组合、答案分布的变化和之前未观察到的语言结构,由此证明了他们提出的方法具有良好的质量和有效性。