谷歌 AI 新技术博文详解「Meta-Dataset」, 针对小样本学习数据的数据库
深度学习近期已在一系列难题中取得突破,但其成功通常取决于大量手动注释训练数据。这一局限也激发了各路研究人员希望能从更少的例子中能实现深度学习的突破。例如,小样本图像分类:仅从少量代表性图像中学习新类别。从实践的角度来看,小样本学习分类是一个非常重要的问题。由于通常无法使用大型标签数据集执行任务,因此,解决此问题将例如能够快速地根据各个用户的需求自定义模型,从而使机器学习的使用民主化。近日对小样本学习的最新工作已经呈现爆炸式增长,但此前的基准测试无法可靠地评估不同模型的相对优点,从而阻碍研究进展。
在 Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples 的论文中,谷歌 AI 研究人员提出一个大规模且多样化的基准,用于衡量现实中具有挑战性的小样本图像分类模型的能力。研究人员在该研究中提供框架,以评估小样本图像分类的多项重要表现。数据集由 10 个可公开获得的自然图像(包括 ImageNet,CUB-200-2011,真菌等),手写字符和涂鸦数据集组成。该研究代码是公开,并演示如何在 TensorFlow 和 PyTorch 中使用元数据集。谷歌今日在博客文章中亦概述了对该数据集的初步研究调查和结果,并重点介绍重要研究方向。