Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

小舟、陈萍报道

MIT推出3D全息图生成新方法,可在智能手机上实时运行

来自 MIT 的研究者利用深度学习推出了 3D 全息图生成新方法,可以为VR、3D 打印、医学成像等创建全息图,并且能够在智能手机上运行。

提起三维场景可视化,虚拟现实(VR)是最常见的一种技术。但经过多年宣传,VR 头戴式耳机仍未成为电视或计算机屏幕上观看视频的必备设备。一个重要的原因是 VR 会让用户感到不适。虽然用户实际上是注视着 2D 显示器,但 VR 会产生 3D 观看的错觉,从而使人视觉疲劳和感到头晕恶心。更好的 3D 可视化解决方案可能在于一种诞生了六十年的技术:全息图。

全息图能够出色地展现 3D 世界,而且它的呈现效果非常漂亮。全息图可以根据观看者的位置提供变化的视角,并允许眼睛调整焦深以交替聚焦在前景和背景上。

长期以来,研究者们一直在试图制造出计算机生成的全息图,但传统上,该过程需要一台超级计算机来进行物理模拟,这非常耗时,并且产生的效果真实感不高。

近日,来自麻省理工学院的研究者已经开发出一种几乎可以立即生成全息图的研究方法。研究者表示:「基于深度学习的方法非常高效,使得新方法瞬间就能够在笔记本电脑上运行。」

研究团队的主要成员,MIT 电气工程与计算机科学系(EECS)的博士生 Liang Shi 说:「以前人们认为,使用现有的消费级硬件还不可能进行实时 3D 全息计算的。人们经常说:商用全息显示器将在未来十年左右出现,但这种说法已经存在了数十年。」

Shi 认为该团队称为「张量全息术」的新方法将最终实现这一「十年目标」。这一进展可能会推动 VR 和 3D 打印等领域引入全息技术。该研究的论文现已发表在《Nature》上,索尼对部分研究提供了支持。

图片


  • 论文链接:https://www.nature.com/articles/s41586-020-03152-0

  • 代码地址:https://github.com/liangs111/tensor_holography


追求更好的 3D 全息图

照片可以忠实地再现场景的颜色,但最终产生的是一个平面图像。相比之下,全息图对每一个光波的亮度和相位都进行编码。这种组合可以更加真实地描述场景的视差和深度。莫奈的《睡莲》可以突出画作的色彩感,而全息图可以让作品变得栩栩如生,呈现出每一笔独特的 3D 质感。

但全息图的制作与共享仍是一个挑战。

全息图从 20 世纪中期开始发展,早期全息图是用光学原理记录的。这种技术需要将激光分为两部分,一半用来照亮被摄体,另一半用作光波相位的参考,该参考产生了全息图特有的深度感。产生的图像都是静态的,不能捕获运动。很难复制和共享。

而计算机生成全息术通过模拟光学装置避开了这些挑战,但是该过程可能是一个就算难题。Shi 说:「由于场景中每个点都有不同的深度,因此无法对所有点都使用相同的操作,这大大增加了复杂性。」指挥集群超级计算机运行这些基于物理的模拟可能需要几秒钟或几分钟来获得一张全息图像。此外,现有的算法不能精确地对遮挡物(occlusion)进行建模。

因此,Shi 的团队采取了不同的方法:「让计算机自学物理。」

他们使用深度学习来加速计算机生成全息术,从而实现实时全息图的生成。该团队设计了一个卷积神经网络:这是一种处理技术,使用一系列可训练张量来粗略模拟人类处理视觉信息的方式。通常,训练神经网络需要比较大的、高质量的数据集,但此前 3D 全息图领域并不存在这样的数据集。

图片


该团队建立了一个包含 4000 对计算机生成图像的数据库。每一对都匹配一张图片,图像信息包括每个像素的颜色和深度信息,这些信息与全息图相对应。研究者使用形状和颜色复杂多变的场景,像素的深度从背景到前景均匀分布,并使用一组基于物理的新型计算来处理遮挡,产生了逼真的训练数据。接下来,算法开始发挥作用。

图片

数据集样例

通过学习每个图像对,张量网络调整了其计算参数,从而逐步增强了其创建全息图的能力。完全优化的网络的运行速度比基于物理的计算快了多个数量级。这种效率让研究团队也感到惊讶。

Matusik 说:「它的表现让我们很惊讶。在短短几毫秒内,张量全息术可以从含有深度信息的图像中生成全息图,其中深度信息是由典型的计算机生成图像提供的,可以通过多机位的设置或激光雷达传感器(这两者都是一些新型智能手机的标准配置)计算出来。

图片


这一进展为实时 3D 全息摄影铺平了道路。更重要的是,压缩型张量网络仅需要不足 1 MB 的内存。这一点非常适合现代智能手机。

微软首席光学架构师 Joel Kollin 说:「这项研究表明真正的 3D 全息显示器是实用的,只需要适当的计算需求。该研究的图像质量比此前有了显著的改善,将提升观看者的真实感和舒适感。」

Kollin 还暗示:「全息显示器可以根据观看者的眼部定制,矫正眼睛的像差。」

其他应用

实时 3D 全息技术还有助于 VR、3D 打印等系统的发展。研究团队表示,新系统可以帮助 VR 观众沉浸在更真实的场景中,同时消除眼睛疲劳和长期使用 VR 的其他副作用。这项技术可以很容易地应用在调制光波相位的显示器上。目前,大多数价格合理的消费级显示器只调节亮度,但如果广泛采用 3D 全息技术,相位调制显示器的成本会下降。

此外,3D 全息技术还可以促进立体 3D 打印技术的发展。事实证明,这种技术比传统的逐层 3D 打印更快、更精确。其他的应用还包括用于显微镜、医疗数据可视化以及具有独特光学特性的平面设计。

Matusik 说:「这是一个巨大的飞跃,可以彻底改变人们对全息技术的态度,我们觉得神经网络是为这项任务而生的。」

作者介绍

图片


该论文的第一作者是 MIT 的计算机科学与人工智能实验室(CSAIL)的博士生史亮。他本科毕业于北京航空航天大学,2016 年获得斯坦福大学电气工程硕士学位。史亮的研究兴趣包括 VR/AR、计算摄影、计算制造、计算机图形学、机器学习等。

图片



第二作者是 MIT CSAIL 博士生李北辰。他本科毕业于清华大学。他的研究兴趣是机器学习计算机图形学、计算设计和计算制造中的跨学科应用。

参考链接:https://news.mit.edu/2021/3d-holograms-vr-0310
产业智能手机全息图MIT
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

张量网络技术

简单来说,张量网络是通过收缩连接的可数的张量集合。“张量网络方法”是指整个相关领域的工具,在现代量子信息科学、凝聚态物理学、数学和计算机科学中经常使用。

推荐文章
暂无评论
暂无评论~