全文约1800字,阅读时间预计6分钟。
拿到一张照片后,正常的人类思维是什么?
我们马上就可以判断出来,照片中有一张桌子,还有一张椅子,他们的大小如何,彼此之间的距离如何,甚至还可以粗略地画出房间的简略地图。
最近的研究表明,当提供大型标记数据集时,神经网络在这项任务中表现出色。然而,如何消除对人类标签的依赖仍然是一个公认重要且棘手的问题。
那么,问题来了,计算机的视觉系统如何建立起对空间的直观感受和理解?或许可以从《Science》上Google的最新研究成果找到一点答案。
在该论文中,Google自豪地介绍了他们的新系统GQN,如何只使用自己的传感器来展示观察到的3D场景,并且可以在没有人类标签和相关领域知识的指导下,完全自主地学习。这为大规模地理解周围世界的机器铺平了道路。
话不多说,我们先来看段视频:
一个几乎什么信息都不知道的神经网络,观察到一个场景或者一两个静态的二维图像,就可以重建出一个合理精准的3D图像,而且并不是如何去从快照到3D的建模,而是模仿人类的做法,直接建立起认知出来。
如婴儿般地建立对视觉的3D认知
大多数的人工智能中,计算机视觉系统都是基于深度神经网络来建立的,它会消耗大量的标记数据来学习如何将图像映射到场景中:他们会在学习中摄取大量已经被人标记好的数据,并借助这些数据给出正确的答案,图像中的所有内容也会被概述和命名。
他们通常的做法是,将图像中的显性对象分类,对场景类型进行分类,检测物体周围包围的对象,或将单个像素标记为预先确定的类别。这可能也是大部分人工智能公司雇佣所谓“民工”的原因吧!
相比之下,自然界中的人类,包括刚出生的婴儿,都可以自主学习,然后通过记忆、想象力等,快速地感知周围的世界。
那么,对于计算机视觉系统来说,最理想的做法就是向人学习,创建机器的“人工系统”,自主地通过建模数据来学习实际场景,而不是使用人类提供的标签作为拐杖。
所以,GQN也是这么想的,其工作原理如下:
一部分是“编码”,就是把从某个角度的观察生成3D场景,并用复杂的数学形式进行编码;一部分是“生成”,用早期创建起来的向量,来预测场景的不同部分到底是什么样子。
也就是说,不需要标签数据,先从不同角度拍摄图像,并创建一个抽象的场景描述,学习它的基本要素;接下来,新系统(GQN)就可以从任何一个新的、任意的视角预测场景会是什么样子。
在这个框架内,机器学习只通过对他们在场景中移动时获得的数据进行训练来感知周围环境。就像婴儿和动物一样,GQN通过尝试理解其对周围世界的观察来学习。在这样做时,GQN学习了似乎合理的场景及其几何属性,而没有任何人物对场景内容的标注。
想象一下,就像有人递给你一些房间的照片,然后要求你画出你所看到的,这对我们是不是很简单?但对于缺乏想象力的计算机视觉来说,他们并没有自然而然的能力去做到这一点,毕竟,他们也只能所见即所得,看不到桌子背后的结构啊,微笑摊手……
迷宫一样的环境也没问题
这样我们就可以看出,这篇论文的惊奇之处在于,如果该系统(GQN)能够学会这种精确而可控的方式来创建图像,那么它陷入就可以足够深入地观察,透视,甚至不需要任何人工的干预。如下图所示,它允许系统从某个单一的视点,准确地重新创建一个3D对象:
显然,在图上,任何一个单一点的观察,并没有任何辅助告诉GQN,有些部分会永远地远离摄像头。所以这就是神奇之处,它可以自我创建一个合理的结构版本,而且无论是在任何方面都是精准的,如果增加多个观察,那么结构显而易见地好。
这种能力对于机器人来说太重要了!
想象一下,他们也必须通过感知,来对现实世界做出反应。有这样系统的自动驾驶是不是会让你觉得更加安全?即便他们没有对前方某些车辆透视完全,但依然可以做出准确的判断!
你能想象到嘛,这些科研人员已经给GQN提供了复杂的迷宫测试了!
科研人员为GQN提供了由多个通过走廊连接的房间组成的迷宫,而且每个每个迷宫的布局和墙壁的颜色都是随机的。在这样的环境下,GQN仅仅观察了五次之后,其不确定性就几乎完全消失了!
不过,GQN的实验确实也还存在着局限性:目前实验还存在于实验室阶段,现实的环境还是更为复杂。
当然,主要作者之一S. M. Ali Eslami 也说了,还是需要更多的数据,以及更快的硬件,然后才能在现实世界中部署这种新型的系统,我们也才能更加接近于理解人类到底是如何建立自己的视觉系统的。
我们还是可以合理期待下的嘛。
论文传送门:
《Neural scenerepresentation and rendering》
S. M. AliEslami、Danilo Jimenez Rezende、Frederic Besse 等;
http://science.sciencemag.org/content/360/6394/1204.full
以及补充材料传送门:
www.sciencemag.org/content/360/6394/1204/suppl/DC1