郑佳作者

Structured3D Dataset | 如何用以假乱真的合成数据帮助机器理解三维结构

本文是对论文《Structured3D: A Large Photo-realistic Dataset for Structured 3D Modeling》的解读。该论文由上海科技大学、酷家乐KooLab和宾夕法尼亚州立大学合作完成。

论文:Structured3D: A Large Photo-realistic Dataset for Structured 3D Modeling

引言

计算机视觉领域,全局、结构化的3D重建在近些年受到越来越多的关注。它能对场景提供更简洁而鲁棒的恢复与理解,在不同行业有许多潜在应用。这些结构(如下图所示)包含平面、线框、立方体、房间布局、房屋平面图、三维形状的线框和立方体的抽象表达等。

由于近年来数据驱动的方法如深度学习的迅猛发展,大规模高质量的数据显得尤为重要。然而由于标注成本高昂,之前的工作大多只标注自己感兴趣的结构,并且数据集的规模都比较小;另外,人工标注的质量也良莠不齐。以全景图的房间布局任务(room layout estimation)为例,目前常用的真实场景数据集如PanoContext和Stanford-2D-3D分别只含有几百张图片,并且均假设房间结构为立方体模型(即房间由六面墙构成,且墙与墙之间相互垂直)。最新的一篇CVPR'19的工作Realtor360提供了2.5k的真实场景数据(截止发稿时,该数据集尚未公开)。所以,如何利用合成数据来自动生成大规模标注引起了研究人员的兴趣。

Structured3D Dataset

三维房屋设计模型对比:(a)为酷家乐的模型库,(b)为SUNCG的模型。

我们基于酷家乐专业的房屋设计解决方案,如上图(a)所示。我们利用机器自动提取房间结构,包括: 线段(line segment)、交点(junction)、平面(plane)这些型元(primitive),和他们之间的关系(relationship),满足立方体(cuboid)和曼哈顿世界假设(Manhattan-world assumption)的平面集合,如下图所示。3D结构我们选取了3500个不同场景,共计20k房间。我们利用酷家乐真实的渲染引擎,得到近两百万图像,以及相应的3D结构化标注,包括不同的装修配置,不同的光照,深度图,语义图。

2D渲染图

我们统计了我们数据集房间布局的统计信息,如下表,可见我们数据集房间布局更具多样性。

下面几张图展示了数据集提供的房间布局标注,从上到下,墙体逐渐增多,布局也逐渐复杂。

至于渲染引擎的真实与否,大家可以猜猜看下图哪列图像是渲染生成的,答案请移步论文查找。

真实和渲染图片对比

实验

我们利用全景图房间结构布局任务(Room Layout Estimation)来验证数据集的价值。我们利用开源的LayoutNet和HorizonNet算法,真实场景的数据集采用PanoContext和2D-3D-Stanford两个数据集。由于这些算法和现有真实场景的数据集对于房间结构布局的标注都基于立方体形状(Cuboid-shape)的假设——认为房间由六面墙构成,且墙与墙之间相互垂直,我们选择我们数据集中满足该假设的房间作为合成数据。

合成数据对算法性能的影响

在该实验中,我们训练LayoutNet和HorizonNet根据i) s:只在合成数据训练,ii) r:只在真实数据训练,iii) s->r:在合成数据预训练,再在真实数据微调(fine-tune)。实验表明,合成数据集能够提升算法在真实场景的性能。

合成数据规模对算法性能的影响

随后我们探索了合成数据的规模对于算法性能的影响,我们分别用2.5k/5k/10k的合成数据作为预训练的合成数据集。实验表明,用更多的数据一般情况能够提升算法的性能。

合成数据的泛化性能

为了研究算法在合成数据集和真实数据训练的泛化性能,我们分别在合成数据集和其中一个真实数据集训练并在另一个真实数据集测试。在PC数据集测试时,在Structured3D数据集上训练要显著优于2D-3D-S;在2D-3D-S测试时,PC和Structured3D效果差异不明显。我们认为这是由于两个真实数据集PC和2D-3D-S本身也存在一些偏差(bias):PC和Structured3D数据集侧重于家装场景,而2D-3D-S侧重于办公室场景。

总结

我们希望Structured3D数据集能对这个既传统又新兴的研究方向有推动作用,包括但不局限于通用房间布局(general room layout estimation,即不对房间布局有任何假设)和房屋平面图(floorplan estimation)等任务。
酷家乐KooLab
酷家乐KooLab

酷家乐前沿技术实验室 (KooLab) 专注于自主知识产权高性能渲染引擎,及家居行业智能 AI 领域工作,致力于将最前沿的科技应用到大家居设计,推动大家居产业变革。我们一起迎接,并感受「所见即所得」的终极家居体验。

理论计算机视觉Structured3D
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

360机构

奇虎360科技有限公司,是中国领先的互联网和手机安全产品及服务供应商。据第三方统计,按照用户数量计算,360是中国领先的互联网安全公司,用户6亿,市场渗透率96.6%;中国领先的移动互联网安全公司,用户数近8亿,市场渗透率近70%;中国领先的浏览器公司之一,活跃用户达到4亿,渗透率超过70%。 360致力于通过提供高品质的免费安全服务,为中国互联网用户解决上网时遇到的各种安全问题。面对互联网时代木马、病毒、流氓软件、钓鱼欺诈网页等多元化的安全威胁,360以互联网的思路解决网络安全问题。360是免费安全的首倡者,认为互联网安全像搜索、电子邮箱、即时通讯一样,是互联网的基础服务,应该免费。为此,360安全卫士、360杀毒等系列安全产品免费提供给中国数亿互联网用户。同时,360开发了全球规模和技术均领先的云安全体系,能够快速识别并清除新型木马病毒以及钓鱼、挂马恶意网页,全方位保护用户的上网安全。

https://www.360.cn/
推荐文章
暂无评论
暂无评论~