用记忆增强神经网络改善One-shot Learning

论文概要

尽管深度神经网络的应用在近期取得了诸多突破,但「one-shot」学习却是一项持续性挑战。传统的基于梯度的网络需要大量数据去学习,需要经过大量反复的训练。当遇到新的数据时,模型必须非常低效率的重新学习它们参数,以便在杜绝 catastrophic interference 下的情况下充分的将新信息包含进来。一些具有增强记忆功能的架构,比如说神经图灵机(Neural Turing Machines, NTMs),提供了快速编码和读取新信息的能力,因此能够有可能避免常规模型的下降趋势。在这篇论文中,我们证明了记忆增强神经网络(MNNNs)可以快速吸收新数据,并且仅利用少数几个例子就可以从从数据中做出准确预测。我们同时介绍了一种新的方法,来获取一种关注存储内容的外部存储,这区别于之前的模型,它们需要额外使用基于位置的存储来关注机制。

许多重要的学习问题需要具备相应的能力来从少量数据中进行有效推断,快速且明智对新信息进行调整。这些问题对深度学习提出了挑战,深度学习目前依赖于缓慢的、增量的参数变化。我们基于「元学习」(meta-learning)的理念提出了一种方法。在这种方法中,渐进的增量虚席能够对跨越任务的背景知识进行编码,同时一个更加灵活的存储资源能够将信息和特定的新任务捆绑在一起。我们的核心贡献是证明了一种用于元学习的 MANNs 的特殊效用。这是包含一种专用的可寻址存储器的深度学习架构。检验结果显示,在分类和回归任务等两个元学习任务中,只使用稀疏的训练数据,MANN 的表现要优于长短时记忆模型(LSTM)。

理论Deepmind神经网络One-Shot Learning论文谷歌理论