SIGGRAPH | 多机器人协同三维场景重建

编者按

本文是另一篇北京大学陈宝权课题组将在SIGGRAPH 2019宣读的论文的解读。

该论文题为《Multi-Robot Collaborative Dense Scene Reconstruction》,由北京大学客座学生董思言、周强与国防科技大学徐凯副教授,以及谷歌和慕尼黑工业大学等单位学者合作,由前沿计算研究中心执行主任陈宝权教授指导完成。

背景

从机器人领域的移动导航、动作规划和物体抓取等经典问题,到虚拟现实增强现实和混合现实等图形技术,都离不开对真实场景的三维建模。随着近几年以微软Kinect、英特尔RealSense等为代表的消费级RGB-D相机的普及,三维重建领域正经历着一场“文艺复兴”。三维重建涉及计算机图形学、计算机视觉和机器人等多个领域,旨在采集真实世界中的彩色图像和深度图像,并以此重建出真实场景的三维模型。相比于传统的激光或雷达扫描重建,近几年RGB-D相机扫描(拍照)的重建算法(如KinectFusion、VoxelHashing)近几年取得了巨大进展。

VoxelHashing大规模场景重建目前的三维重建算法为场景建模带来了很多便利,但是仍存在很多问题。比如,即使是使用最先进的扫描重建算法,仍然需要训练有素的专业扫描人员执行扫描过程,算法的使用对普通用户并不友好。这是因为当前实时算法之所以能做到实时响应,是因为其做了很多假设,例如要求扫描设备的移动足够平滑甚至是匀速,要求被扫描物体的表面有明显的纹理或者几何特征。因此,普通用户扫描过程中,经常会面临算法失败的问题。即使是专业扫描人员,在扫描过程中需要保持合适的移动速度和扫描朝向,这也是枯燥且繁重的工作。
主动式扫描和场景分析于是,近年来越来越多使用机器人代替人来做扫描重建的工作问世。从单个物体到室内房间,这些工作使用机器人携带扫描设备,根据重建实时反馈,指导机器人扫描并建模。

相关工作

陈宝权老师带领的Visual Computing and Learning 课题组近几年发表了一些使用机器人做主动式扫描和建模的工作。主动式扫描的现有工作在对于单个物体、房间或公寓等场景的扫描都取得了不错的效果。于是,使用更多机器人进行大规模场景的扫描重建是一个重要的拓展方向。

主动式扫描和物体识别群体智能是机器人领域的一个重要研究方向。目前已经有一些针对机器人协同合作的研究工作,大部分这些工作研究重点在于机器人之间的坐标定位和导航。也有一些工作基于贪心策略、MTSP(多旅行商问题)和区域分割等算法设计策略指导多个机器人协同工作,虽然取得了一些进展,但是在场景复杂、机器人数量较多情况下其难求解,缺乏灵活性,并没有达到预期的效果。

我们的方法

以室内大规模场景的扫描和重建为目标,我们提出了基于最优质量传输理论(Optimal Mass Transport)的多机器人协同探索并重建未知室内场景模型的算法。最优质量传输理论其实大家都不陌生,最经典的例子是土豆的供给和需求问题,假设有若干地区(下图蓝色)供给土豆,若干地区(下图桔色)需求土豆,不同地区直接运输土豆的代价不同, 那么如何找出这样一个规划,使得所有需求地区都能得到满足其需求的土豆数量,且总的运输代价最低,这就是一个简单的最优质量传输模型。

最优质量传输的例子最优质量传输理论就是为了研究这类优化问题而提出,其目标是求出两个分布(或者说集合)之间的映射关系,使得该映射在给定的度量下代价最低。在机器人扫描重建问题中,我们可以把机器人看作是扫描的供给方,未知环境看作是扫描的需求方,而机器人实际执行扫描任务所需要的代价(如移动距离)作为映射的度量。以此为基础,我们通过求解最优质量传输,就可以得到机器人和扫描任务之间的映射,使扫描代价最低。
机器人扫描的最优质量传输机器人的空间位置分布可以直接作为扫描的供给分布。那么,如何度量未知环境对扫描的需求分布呢?首先,所有的未知区域都属于扫描的需求分布,它们需要得到机器人的扫描和重建。另外,在扫描过程中,对于已扫描和重建的部分区域,我们沿袭最经典的三维重建方法KinectFusion中对扫描重建模型质量的评估方式,如果质量没有达到目标,那么我们把这些区域也加入扫描的需求分布中,这样我们得到了原始的需求分布。由于扫描任务受扫描视角的影响,我们进一步推算出能扫描覆盖需求分布的最佳扫描视角,这些扫描视角也就是接下来机器人的扫描任务,这些扫描视角的空间分布也就是最终的需求分布。
分析重建结果推算扫描视角作接下来是对扫描代价度量的研究。如果一个机器人只映射到了需求分布中的一个扫描任务,我们可以简单地使用机器人到任务的最优路径长度作为其扫描代价;如果一个机器人映射到了多个扫描任务,那么我们使用机器人与这些任务构成的TSP(旅行商问题)路径长度作为其代价。这样,我们就把多机器人扫描问题公式化成为了最优质量传输模型。在求解优化目标时,TSP的离散性给我们优化问题的求解带来了困难,于是我们进一步研究目标函数近似求解的方法,最终使用基于聚类思想的方法求解,得到了不错的效果。随着扫描的进行,场景会不断被探索重建,这个过程中最优质量传输的求解也会随之更新,直到完整的场景被高质量地重建出来。
随场景更新而重新计算最优质量传输我们的结果

我们在模拟器中使用Matterport3D与SUNCG数据集对算法进行了测试,取得了不错的效果。

Matterport3D (上图) 与 SUNCG (下图) 数据集测试结果同时,我们也在五院的几个房间使用Turtlebot机器人做了真机实验。下面是我们重建的结果。
五院几个房间扫描重建结果总结

我们提出了一种多个机器人协同扫描的理论和算法。基于最优质量传输理论,使用分而治之的策略,驱动多个机器人高效地探索扫描室内大规模场景,并重建其三维模型。

关于SIGGRAPH 

SIGGRAPH (Special Interest Group on Computer GRAPHics and Interactive Techniques) 是计算机领域规模最大的顶级会议、CCF A类会议,参加人数达2万余人,每年收录百余篇图形学相关的优秀论文,是计算机图形领域集技术、艺术与展览于一体的盛会。SIGGRAPH 2019将于2019年7月28日-8月1日在美国洛杉矶举行。

图文 | 董思言

Visual Computing and Learning

北京大学前沿计算研究中心
北京大学前沿计算研究中心

北京大学前沿计算研究中心主导/参与的相关科研成果发布。

理论机器人三维重建SIGGRAPH
相关数据
英特尔机构

英特尔是计算创新领域的全球领先厂商,致力于拓展科技疆界,让最精彩体验成为可能。英特尔创始于1968年,已拥有近半个世纪产品创新和引领市场的经验。英特尔1971年推出了世界上第一个微处理器,后来又促进了计算机和互联网的革命,改变了整个世界的进程。如今,英特尔正转型成为一家数据公司,制定了清晰的数据战略,凭借云和数据中心、物联网、存储、FPGA以及5G构成的增长良性循环,提供独到价值,驱动日益发展的智能互联世界。英特尔专注于技术创新,同时也积极支持中国的自主创新,与产业伙伴携手推动智能互联的发展。基于明确的数据战略和智能互联全栈实力,英特尔瞄准人工智能、无人驾驶、5G、精准医疗、体育等关键领域,与中国深度合作。面向未来,英特尔致力于做中国高价值合作伙伴,在新科技、新经济、新消费三个方面,着力驱动产业协同创新,为实体经济增值,促进消费升级。

https://www.intel.com/content/www/us/en/company-overview/company-overview.html
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~