自动「脑补」3D环境!DeepMind最新Science论文提出生成查询网络GQN

给定立方体积木的几个侧面剪影,你能否「脑补」出它的整个 3D 形状?这看起来像是行测中的图形题,考验人们从 2D 画面到 3D 空间的转换能力。在 DeepMind 最新发表在顶级期刊 Science 的论文《Neural scene representation and rendering》中,计算机通过「生成查询网络 GQN」也拥有了这种空间推理能力。

DeepMind 创始人(同时也是该论文的作者之一)戴密斯·哈萨比斯表示:「我们一直着迷于大脑是如何在意识中构建空间图像的,我们的最新《Science》论文引入了 GQN:它可以从一些 2D 快照中重建场景的 3D 表示,并可以通过任何新的视角不断增强这一表示。」

理解视觉场景时,我们依赖的不仅仅是眼睛:我们的大脑利用已有知识来推理,并做出远远超过视线所及的推论。例如,当第一次进入一个房间时,你会立即认出里面的物品以及它们的位置。如果你看到一张桌子的三条腿,你会推断可能还有第四条腿,形状和颜色相同,只不过在视线之外。即使你看不到房间里的所有东西,你也可以勾画出它的布局,或者从另一个角度想象它的样子。

这些视觉和认知任务对人类来说似乎毫不费力,但对我们的人工智能系统来说却是一个重大挑战。如今,最先进的视觉识别系统需要使用由人类标注的大量图像数据来进行训练的。获取这些数据是一个成本高昂且耗时的过程,需要人工对数据集中每个场景中每个对象的每个方面进行标记。而实验结果通常只能捕获到整体场景内容的一小部分,这限制了根据该数据训练的人工视觉系统。随着我们开发出现实世界中更复杂的机器,我们希望它们可以充分理解周围的环境:最近的地面在哪里?沙发是用什么材料做的?哪一个光源产生了所有的阴影?电灯开关可能在哪里?

在这项发表在 Science 的研究中,DeepMind 引入了生成查询网络(Generative Query Network/GQN)的框架,其中机器通过到处走动并仅在由它们自己获取的数据中训练来感知周围环境。该行为和婴儿、动物很相似,GQN 通过尝试观察周围的世界并进行理解来学习。以此,GQN 得以学习合理的场景以及它们的几何性质,而不需要任何场景内容的人类标记。

GQN 模型由两部分构成:一个表征网络以及一个生成网络。表征网络将智能体的观察作为输入,并生成一个描述潜在场景的表征(向量)。然后生成网络从之前未观察过的视角来预测(想象)该场景。

表征网络不知道生成网络将被要求预测哪些视角,因此必须找到尽可能准确描述场景真实布局的有效方法。表征网络能通过简明的分布式表示捕获最重要的元素,例如目标位置、颜色和房间布局。在训练过程中,生成器学习环境中的典型目标、特征、关系和规律。这组共享的「概念」使表征网络能够以高度压缩、抽象的方式来描述场景,让生成网络在必要时填写细节。例如,表征网络将把「蓝色立方体」简洁地表示为一个小的数值集合,生成网络将知道从特定的角度来看,这是如何以像素的形式表现出来的。

我们在模拟 3D 世界里一组由程序生成的环境中对 GQN 进行了受控实验,这些环境包含随机位置、颜色、形状和纹理的多个目标,还有随机光源和严重遮挡。在这些环境下训练后,我们使用 GQN 的表征网络来生成新的、以前未见过的视角下的场景表征。我们在实验中表明,GQN 具有几个重要的特性:

  • GQN 的生成网络可以从新的视角非常精确地「想象」以前未见过视角下的场景。当给定场景表征和新视角时,它会生成清晰的图像,而不需要预先规定角度、遮挡或照明的规律。因此,生成网络是从数据中学习的近似渲染器(renderer):

  • GQN 的表征网络可以学习计数、定位和分类目标,并且不需要任何目标级的标注。即使它的表征可能是很小的,GQN 在查询视角的预测也能达到很高的准确率,几乎和真实场景无法分辨。这意味着该表征网络可以准确地感知,例如识别积木块的精确配置:

  • GQN 可以表征、测量和减少不确定性。它可以计算关于场景可信度的不确定度,即使其内容不是完全可见的,并且它可以组合一个场景的多个部分视角来构建一致的整体。下图中展示了它的第一人称视角和自顶向下视角的预测。该模型通过预测的易变性来表达不确定度,并随着它在迷宫中移动而逐渐减小(灰色椎体表示观察位置,黄色椎体表示查询位置)。

  • GQN 的表征允许实现鲁棒性的、数据效率高的强化学习。当给定 GQN 的紧凑型表征时,如下所示,当前最优的深度强化学习智能体相比于 model-free 的基线智能体在学习完成任务上有更高的数据效率。对于这些智能体,通用网络中编码的信息能被视为环境的先验知识

相比于使用原像素的标准方法,使用 GQN 迭代次数少了 4 倍,但收敛表现一致且有更加数据高效的策略学习。

GQN 建立在最近大量多视角的几何研究、生成式建模、无监督学习和预测学习的基础上,它展示了一种学习物理场景的紧凑、直观表征的全新方式。重要的是,提出的这种方法不需要特定域的工程以及消耗时间对场景内容打标签,使得同一模型能够应用到大量不同的环境。它也学习了一种强大的神经渲染器,能够产生准确的、全新视角的场景图像。

DeepMind 认为,相比于更多传统的计算机视觉技术,他们的方法还有许多缺陷,目前也只在合成场景下训练工作的。然而,随着新数据资源的产生、硬件能力的发展,DeepMind 希望探索 GQN 框架应用到更高分辨率真实场景图像的研究。未来,探索 GQN 应用到更广泛的场景理解的工作也非常重要,例如通过跨空间和时间的查询来学习物理和移动等常识概念,还有应用到虚拟和增强现实等。

虽然在我们的研究能够实践部署之前,还有很多研究需要完成,但我们相信该研究是迈向自动场景理解相当大的一步。


论文:Neural scene representation and rendering

论文链接:http://science.sciencemag.org/content/360/6394/1204

摘要:场景表征,即将视觉传感数据转换为简明描述的过程,是智能行为的基本要求。最近的研究工作表明在为神经网络提供大型标注数据集的情况下,它在场景表征中有优秀的性能,但是移除神经网络对人力标注的依赖仍然是一个重要的开放性问题。为此,我们引进了生成查询网络(Generative Query Network /GQN),机器在这个框架中将学习如何仅使用自己的传感器表征场景。GQN 将从不同视角拍摄的场景图作为输入,并用来构建内部表征,然后模型会根据这样的表征预测以前没见过视角下的场景外观。GQN 展示了在没有人类标注或领域知识下的表征学习,为机器的自动学习及其对周围世界的理解铺平了道路。

理论智能体计算机视觉论文ScienceDeepmind
3
相关数据
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~