Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟、杜伟报道

窥探他人眼中的世界:用眼睛反光重建3D场景,《黑镜》走进现实

从人眼反射中重建3D场景,这是一个新奇的话题。近日,马里兰大学帕克分校的一项研究实现了这一效果,利用人眼反光3D重建这个人正在观察的物体或场景,让人直呼《黑镜》重现。

图片

论文地址:https://arxiv.org/pdf/2306.09348.pdf

你也许会问,真的有这么神奇吗?看看下面几个效果图就知道了。

图片

图片

图片

图片

研究者使用一段Lady Gaga的音乐视频,试图重建她眼中观察到的东西。我们可以从Lady Gaga的眼中观察到一个类似上身的影子。不过受限于视频的质量,重建的正确性无法确定。

图片

原来,人眼中的3D世界是这个样子的,模糊却又有点神秘。有人表示, 「这是一篇令人兴奋的论文。」

图片

黑镜重现:人眼反射的3D场景重建

在人类的五官之中,人眼用来处理周围世界的视觉信息。人眼可以当做两个透镜来将光聚焦到感光细胞上,这些感官细胞又组成了视网膜。如果我们观察其他人的眼睛,也会捕获到从角膜反射的光。而当我们使用相机来拍摄其他人的眼睛时,可以将眼睛作为整体成像系统中的一组镜子。由于从观察者眼睛反射的光与到达视网膜的光具有相同的来源,因此相机形成的图像应包含观察者所看到世界的信息。

先前已经有研究探索过从眼睛的图像肿恢复观察者所看到的世界的全景图像,后续工作进一步探索了在个人识别、抓握姿势检测、聚焦物体估计和重照明等领域的应用。

随着3D视觉和图形学的进步,不禁要问:除了从人眼中重建单独的一张全景环境地图之外,有没有可能完整恢复观察者看到的3D世界呢?

在这篇论文中,研究者使用包含人眼反射的图像来重建相机视线以外的3D场景。做到这些非常具有挑战性, 一方面难以准确估计眼睛姿态,另一方面眼睛虹膜和场景反射之间存在纠缠。

针对这些挑战,研究者联合优化了角膜姿态、用于描述场景的辐射场以及观察者的眼睛虹膜纹理,并进一步提出利用虹膜纹理模式的正则化先验来提供重建质量

更具体来讲,研究者通过引入两个关键组件将 NeRF 用于眼睛图像的训练。这两个组件一个是纹理分解,它利用简单的径向先验来帮助从整体辐射场中分离出虹膜纹理;另一个是眼睛姿态优化,它增强了姿态估计的准确性,忽略了眼睛自身小尺寸带来的挑战。

下图4为辐射场和虹膜纹理的联合优化过程,清楚地展示了如何利用从眼睛反射的光线。

图片

实验结果

合成数据评估

该研究通过把眼球模型放置于场景中在Blender中合成了一些数据。下图5展示了该研究定性合成的结果,说明了所提方法能够重建场景的 3D 几何形状:

图片

特别地,如下图7所示,该方法的性能随噪声水平的变化而变化:

图片

为了探究纹理分解的作用,该研究进行了消融实验,实验结果如下表1所示

图片

现实实验

为了评估方法的实际意义,该研究尝试用所提方法捕获和处理了一些真实图像。

如下图9所示,该研究使用类似于标准人像拍摄的方法来捕获图像,以保持视野的逼真性。如下图9所示,该研究保证整个头部在人像拍摄画面中可见,并在人的两侧放置区域灯来照亮感兴趣的对象,然后要求人在摄像机的视野内移动,并为每个场景拍摄 5-15 帧。

图片

如下图6所示,实验结果表明该方法能够从真实世界拍摄的肖像中重建人眼看到的 3D 场景,但角膜位置和几何估计不准确。

图片

如下图 10 所示,通过从所提方法中去除角膜姿态优化和纹理分解,该研究证明了角膜姿态优化和纹理分解对于成功重建 3D 场景很有必要。

图片

此外,该研究还通过实验表明径向正则化(radial regularization)能够提高3D重建的质量,如下图 11 所示。

图片

感兴趣的读者可以阅读论文原文,了解更多研究细节。
理论3D场景重建眼睛反光
相关数据
正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

推荐文章
暂无评论
暂无评论~