参与蒋思源 张倩 王淑婷 刘晓坤

一块玻璃也可以是相机,新型无镜头相机助力计算机视觉

计算机视觉处理高分辨率的图像需要非常多的计算量,因此很多数据集的图像分辨率都非常小。而近日,工程师们用一块玻璃、一个光电探测器和一些软件,开发了一种「透视」相机,这种不带镜头的相机能拍摄分辨率非常小的图像,并抽象出物体的主要轮廓。因此使用这种相机拍摄的图像能大量降低计算机视觉所需要的计算力。同时,他们也在开发用机器学习算法处理更复杂图像的技术。

以前的相机配备自己的专门设备,如镜头和胶卷,而且照相得去照相馆。后来,手机、平板电脑、笔记本电脑和视频游戏机都有了自己的照相功能。现在,相机似乎会在某天变得和玻璃一样不显眼,甚至它都不再需要镜头。

根据新的研究,压在窗户边缘的光电探测器可以检测玻璃内部的反射光,就像光信号穿过光缆一样。对检测到的微小光线进行一些巧妙的处理,可以让玻璃面板成为一个巨大的照相机镜头。

由这种相机产生的粒状图像(想象一下像素化、失真和分辨率较低的图像)虽然暂时还没法和传统相机的效果相比。但是对于很多计算机视觉任务来说,窗玻璃或一块汽车挡风玻璃拍摄的分辨率足以满足图像处理算法或神经网络所需的信息。

这是他们对 LED 阵列图像的拍摄效果:

其中左列是原始图像,中间列是图像传感器接收到的输入,右列是计算机重构后的图像。

犹他大学电气和计算机工程副教授 Rajesh Menon 说,现代照相机拍摄的图像中,其实有很多是我们用肉眼无法看到的。它们只能被用来处理安全的照相机算法或自动车辆图像传感器看到,而这些我们肉眼无法看到的图像正变得越来越多。

所以,Menon 问道,「如果机器相比人类能够看到的图像和视频更多,那我们为什么不考虑为机器重新设计相机呢?这样能让我们脱离之前的窘境,以非人类的角度来看待相机。」

换而言之,计算机视觉算法并不如人眼那样总需要高分辨率和高图像保真率。它们能从 Menon 和 Ganghun Kim 的「透明无镜头相机」中获得大量信息,即使它拍摄的图像质量并不高,这样成本和占用面积都会大量减小。他们的技术已经申请了专利,该技术对视觉媒介本身并没有要求,可以是玻璃、塑料或有机玻璃等。

他们将一个现成的光电探测器(8 分辨率、640×480 像素)连接到有机玻璃的边缘,平滑连接的边缘且准备与成像设备连接。他们随后在有机玻璃其余周边放置反光带。Menon 说他们可以在没有反光带的情况下成像,只不过反光带提高了信噪比。

对于这种概念验证,实验只需要保持简单的视野。他们在窗格前放置了一排尺寸为 32X32 的 LED 灯。然后,当 1024 束光各自被照亮时,他们观察到达光电探测器的信号。因此,来自 LED 阵列的任何图像,至少在一级近似中,将仅仅是每个点亮的单独 LED 灯信号的线性组合。

如果机器相比人类能够看到的图像和视频,那我们为什么不考虑为机器重新设计相机呢?——犹他大学,Rajesh Menon

Menon 表示,在这个项目中,他们开发了一种传统信号处理算法,它能够借助光电探测器接收的信号重构图像。他们把这一步称为「反转问题」,因为他们的算法利用复杂、混乱的信号作为输入,并利用探测器检测到的光子来生成可能的目标。

「我们正在检测「光子」在与特定目标对应的空间中的分布,」他表示,「我们喜欢看一对一的图。相机的原理正是如此。此处用到的是一对多的图,因此我们要解决反转问题。」

这也是这些玻璃面板「相机」与计算机视觉相关的项目完美契合的原因。图像质量和可分解的信息对于计算机视觉来说可能已经足够好了,但还不能(也许永远都不能)取代基于镜头、拍给人看的传统相机。

Menon 提到,他的团队目前正在开发一种机器学习算法用于学习更复杂的图像,如可以被检测并识别为数值的手写数字。他指出,该技术可能首先被应用在 VR 或 AR 眼镜中。这些眼镜的图像生成和图像展示硬件已然非常笨重,眼球追踪摄像头可能是个累赘。因此,如果能够用这款不带摄像头的透视相机就能追踪用户的眼动并获取足够优质的信息该有多好。

用一项品质远远低于当前最佳水平的技术作为突破听起来非常讽刺。但 Menon 表示,或许转变思维方式,重新设计在 AI 及图像处理系统中「足够优质」的技术可以让我们前进一大步。就像苍蝇的眼睛一样,AI 世界里最重要的不是单个数据的品质,而是数据源的增殖能力。

这也是为什么相机和玻璃板在未来数年会越来越接近的原因,至少对于计算机视觉算法来说是这样。

论文:Computational imaging enables a「see-through」lens-less camera

论文地址:https://www.osapublishing.org/oe/abstract.cfm?uri=oe-26-18-22826

摘要:传统相机会遮挡需要记录的场景,而这里我们将一个图像传感器(没有镜头)放在透明窗口的边缘,并通过该窗口观察物体图像。这一过程首先可以通过图像传感器收集散射光,然后通过解光散射的逆问题来实现图像的重构。因此,我们能形成简单的图像,并且在物距 150mm、焦距 10mm 的情况下有 0.1 line-pairs/mm 的空间分辨率。我们进一步展示了两种物体的成像:LED 阵列和传统的 LCD 屏幕。最终,我们演示了彩色和视频成像。 

原文链接:https://spectrum.ieee.org/tech-talk/computing/software/a-lensless-camera-built-specially-for-ai-and-computer-vision-programs-sorry-humans

工程硬件计算机视觉
21
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

推荐文章
6到不行