MIT的「伽利略」系统预测物体移动的能力接近人类

我们人类拥有一项强大的能力,那就是预测周围物体的运动。例如,我们之所以喜欢鲁布·戈德堡机械,正是因为我们能观赏一系列的物体运动,包括下落、滚动、滑动和相撞,并预测下一步会发生什么。我们把这种预测物体运动的能力当做理所当然的事情。 那么,我们究竟是如何做到这一点的呢?我们为何能如此有效地吸收周围环境中的信息,并实时做出反应呢?计算机科学家是否能从这个问题中窥见一些原理,并教给机器呢?

最近,MIT计算机科学与人工智能实验室(CSAIL)的科学家们就给出了自己的答案——他们开发了一个计算机模型,能够精确地预测物体的运动,其精准度与人类不相上下。 这个系统用真实世界的视频来进行训练,并使用一个「三维物理引擎」来模拟人类直觉。该系统名为「伽利略」(Galileo)。它能够推断出物体的物理性质,并预测一系列物理事件的结果。尽管这篇论文主要关注在相对简单的实验(包括斜坡和相撞),但他们说这个系统能够对自己的发现进行概括,并不断地自我改进,这意味着它能够预测更广泛的行为。 博士后研究员Ilker Yildirim和博士生Jiajun Wu领导了该项研究。Yildirim说,在斜坡的情境中,伽利略能推断出物体的密度,并预测它们是否能够漂浮。这是让计们,为算机深入理解动态情境的第一步。 这篇论文上个月发表在神经信息处理系统会议(NIPS)上。共同作者还包括脑与认知科学系的博士后Joseph Lim、William Freeman教授、Joshua Tenenbaum教授。

他们是如何做到的?

最近的神经科学研究告诉我了理解场景和预测其中的事件,我们的大脑依赖于脑中的「物理引擎」,该引擎由详细但模糊的物理规律知识所组成,这些知识支配着更广阔的世界中的物体运动。 研究者用人类的框架来改进他们的模型。首先,他们用150段描绘物理事件的视频来训练伽利略,这些事件包括了15种不同的材料,从硬纸片到金属和橡胶。这个训练过程允许这个模型产生出一个关于物体及其物理性质的数据集,这些物理性质包括形状、体积、质量、摩擦力和在空间中的位置。

ramp_lengths

接下来,这个团队为该系统输入了来自Bullet的模型信息,Bullet是一个三维物理引擎,通常用在电影和游戏中创造特效。Bullet可以通过输入一个给定场景的构造,然后在物理上模拟它,以此来检验伽利略的假设。 最终,这个团队开发出一个深度学习算法,允许该模型教自己改进预测,最终达到一个程度:只要伽利略看到一段视频的第一帧,就能识别出场景中的物体,并推测出它的物理性质,然后确定物体之间会发生什么相互作用。 卡耐基梅隆大学的计算机科学助理教授Abhinav Gupta说:「人类学习物理性质的方式是与物理世界交互,但是这对计算机来说很困难,因为缺乏训练数据。这篇论文通过深度学习卷积神经网络与传统AI(如仿真引擎)相结合,以一种优美的方式解决了这个问题。」

人类 vs. 机器

为了评估伽利略的能力,这个团队让它与人类被试的表现进行了比较。 在其中一个实验中,用户先观看一组物体的相撞过程,然后观看一段视频,该视频会停在相撞的那一瞬间。接着,让用户标出他们认为物体最远会到达的地方。 Yildirim 说:「这个场景似乎很简单,但是存在许多不同的物理力,从物体的相对质量、弹性、重力到表面与物体之间的摩擦力,这让计算机模型进行预测变得很困难。人类利用直觉进行判断,从本质上说我们必须把这些性质以及它们互相影响的方式教给系统。」 在另一个模拟实验中,用户首先观看了一段斜面为20度的撞击视频,然后观看斜面为10度的视频的第一帧,接着预测这个物体是否会沿着斜面滑下来。 Yildirim说:「有趣的是,计算机模型和人类被试的表现都很随机,并且都倾向于预测这个物体会移动。这表明,不仅人类和计算机会犯类似的错误,还提供了更多证据证明人类对场景的理解在概率仿真中能被更好地描述。」

接下来会怎样?

该团队的成员说,他们计划扩展该研究到更复杂的场景中,包括流体、弹簧等材料。他们说,该研究继续下去,将有助于为机器人学和人工智能带来直接的应用。 Lim说:「想象一下,在未来,一台机器人或许能够迅速适应极端物理事件,例如龙卷风或地震。我们的最终目标是建造一台灵活的模型,在极端不确定的环境中辅助人们的工作。」  

来自csail.mit,作者 Adam Conner-Simons,机器之心编译出品。编译:汪汪。

入门MIT人工智能机器人