计算机视觉如何像婴儿一样感知3D世界?Google最新研究结果告诉你!

 全文约1800字,阅读时间预计6分钟。

拿到一张照片后,正常的人类思维是什么?

我们马上就可以判断出来,照片中有一张桌子,还有一张椅子,他们的大小如何,彼此之间的距离如何,甚至还可以粗略地画出房间的简略地图。

最近的研究表明,当提供大型标记数据集时,神经网络在这项任务中表现出色。然而,如何消除对人类标签的依赖仍然是一个公认重要且棘手的问题。

那么,问题来了,计算机的视觉系统如何建立起对空间的直观感受和理解?或许可以从《Science》上Google的最新研究成果找到一点答案。

在该论文中,Google自豪地介绍了他们的新系统GQN,如何只使用自己的传感器来展示观察到的3D场景,并且可以在没有人类标签和相关领域知识的指导下,完全自主地学习。这为大规模地理解周围世界的机器铺平了道路。

话不多说,我们先来看段视频:


一个几乎什么信息都不知道的神经网络,观察到一个场景或者一两个静态的二维图像,就可以重建出一个合理精准的3D图像,而且并不是如何去从快照到3D的建模,而是模仿人类的做法,直接建立起认知出来。

如婴儿般地建立对视觉的3D认知

大多数的人工智能中,计算机视觉系统都是基于深度神经网络来建立的,它会消耗大量的标记数据来学习如何将图像映射到场景中:他们会在学习中摄取大量已经被人标记好的数据,并借助这些数据给出正确的答案,图像中的所有内容也会被概述和命名。

他们通常的做法是,将图像中的显性对象分类,对场景类型进行分类,检测物体周围包围的对象,或将单个像素标记为预先确定的类别。这可能也是大部分人工智能公司雇佣所谓“民工”的原因吧!

相比之下,自然界中的人类,包括刚出生的婴儿,都可以自主学习,然后通过记忆、想象力等,快速地感知周围的世界。

那么,对于计算机视觉系统来说,最理想的做法就是向人学习,创建机器的“人工系统”,自主地通过建模数据来学习实际场景,而不是使用人类提供的标签作为拐杖。

所以,GQN也是这么想的,其工作原理如下:

一部分是“编码”,就是把从某个角度的观察生成3D场景,并用复杂的数学形式进行编码;一部分是“生成”,用早期创建起来的向量,来预测场景的不同部分到底是什么样子。

也就是说,不需要标签数据,先从不同角度拍摄图像,并创建一个抽象的场景描述,学习它的基本要素;接下来,新系统(GQN)就可以从任何一个新的、任意的视角预测场景会是什么样子。

在这个框架内,机器学习只通过对他们在场景中移动时获得的数据进行训练来感知周围环境。就像婴儿和动物一样,GQN通过尝试理解其对周围世界的观察来学习。在这样做时,GQN学习了似乎合理的场景及其几何属性,而没有任何人物对场景内容的标注。

想象一下,就像有人递给你一些房间的照片,然后要求你画出你所看到的,这对我们是不是很简单?但对于缺乏想象力的计算机视觉来说,他们并没有自然而然的能力去做到这一点,毕竟,他们也只能所见即所得,看不到桌子背后的结构啊,微笑摊手……

迷宫一样的环境也没问题

这样我们就可以看出,这篇论文的惊奇之处在于,如果该系统(GQN)能够学会这种精确而可控的方式来创建图像,那么它陷入就可以足够深入地观察,透视,甚至不需要任何人工的干预。如下图所示,它允许系统从某个单一的视点,准确地重新创建一个3D对象:

显然,在图上,任何一个单一点的观察,并没有任何辅助告诉GQN,有些部分会永远地远离摄像头。所以这就是神奇之处,它可以自我创建一个合理的结构版本,而且无论是在任何方面都是精准的,如果增加多个观察,那么结构显而易见地好。

这种能力对于机器人来说太重要了!

想象一下,他们也必须通过感知,来对现实世界做出反应。有这样系统的自动驾驶是不是会让你觉得更加安全?即便他们没有对前方某些车辆透视完全,但依然可以做出准确的判断!

你能想象到嘛,这些科研人员已经给GQN提供了复杂的迷宫测试了!

科研人员为GQN提供了由多个通过走廊连接的房间组成的迷宫,而且每个每个迷宫的布局和墙壁的颜色都是随机的。在这样的环境下,GQN仅仅观察了五次之后,其不确定性就几乎完全消失了!

不过,GQN的实验确实也还存在着局限性:目前实验还存在于实验室阶段,现实的环境还是更为复杂。

当然,主要作者之一S. M. Ali Eslami 也说了,还是需要更多的数据,以及更快的硬件,然后才能在现实世界中部署这种新型的系统,我们也才能更加接近于理解人类到底是如何建立自己的视觉系统的。

我们还是可以合理期待下的嘛。

论文传送门:

《Neural scenerepresentation and rendering》

S. M. AliEslami、Danilo Jimenez Rezende、Frederic Besse 等;

http://science.sciencemag.org/content/360/6394/1204.full

以及补充材料传送门:

www.sciencemag.org/content/360/6394/1204/suppl/DC1

声学在线
声学在线

产业计算机视觉Google
2
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~