参与Angulia Chao、Joni Zhong

NeurIPS 2019 少样本学习研究亮点全解析

针对此类痛点,少样本学习被提出并进行了多个应用场景下的尝试。本届 NeurIPS 2019 也收录了近十篇关于少样本学习的文章,他们或是从数据增强的角度出发,或是从特征表征(Feature Representation)的加强提出了新的思路。本文涵盖了本届 NeurIPS 收录的少样本学习文章,着眼于工作的实用性,创新性以及延续性三个维度,详解分析了三篇笔者认为非常具有启发性和实用性的少样本学习文章,概述了其余几篇的贡献和亮点,以期给感兴趣的读者呈现关于该方向最新的研究进展,以及对后续研发的启示。

Few-shot Video-to-Video Synthesis

类比于 Image-to-Image, 将特定场景下的输入图像转换到另一场景生成新图,Wang et al 在 2018 提出的视频到视频的合成(Video-to-Video synthesis, 简称 vid2vid)将连续多帧图像构成的视频,转换到新场景下并生成新的语义场景下的视频。本文是作者在该文基础上做的扩展。参考下图,根据对应的人体关键点姿态运动视频(pose videos),模型相应合成真人的动作视频。之前提出 Vid2vid 文献的局限也非常明显:数据需求量太大,合成模型表达能力有限。首先,对于合成某人真人运动视频要求模型有大量目标对象的图像来完成训练,对数据量的要求巨大,其次单个姿态到真人视频合成 vid2vid 模型通常只能合成训练集里包括的人体个体,无法生成任何不处于训练集中的人的运动视频。

基于以上限制,few-shot vid2vid 方法提出在测试阶段喂给模型少量目标样本的图像,学习合成未见过的目标个体或者场景的对应视频。参考右图示意,不需要为每个人和每个特定场景都寻找大量的训练样本来合成视频,对于未知个体,可以通过 few-shot vid2vid 模型本身的场景泛化能力,使得测试阶段提供少量目标图像就可以合成同样的真人运动视频。相较于已有的 vid2vid 工作,few-shot vid2vid 工作的亮点集中于:1. 除了人体姿态的语义视频,额外增加了少量目标真人的图片作为模型测试阶段的额外输入。2. 使用了新颖的网络参数生成(Network Weight Generation)机制, 利用这少量的目标图片训练了一个模块来生成网络对应的参数。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论少样本学习NeurIPS 2019
6
相关数据
视觉问答技术

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

直推式学习技术

在逻辑学、统计推理和监督学习中,转换或转换推理是从观察到的具体(训练)案例到具体(测试)案例的推理。 这与常见的案例-一般规则-案例的归纳推理有所不同

图像提取技术

图像提取包括图像的特征检测和特征提取过程。 特征检测是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征检测的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。 特征被检测后它可以从图像中被提取出来。这个过程可能需要许多图像处理的计算机。其结果被称为特征描述或者特征向量。 低层次的特征提取方法包括:边缘检测、角检测、区域检测、脊检测等,还有曲度检测以及运动检测。 高层次的特征提取方法包括:1.固定形状匹配方法如阈值、模板匹配和霍夫变换等;2.灵活变形分析方法。 进一步特征提取与降维有关,常用的降维技术有主成分分析法、独立成分分析法、等距特征映射等。

暂无评论
暂无评论~