泽南编译

屏下摄像头效果不好?微软:上神经网络,还原更真实的可视会议效果

如何实现真正的眼神交流?一切都得看屏下摄像头和深度学习技术。

把摄像头放在屏幕下的想法并不新奇,在视频会议这个交流方式刚刚出现时,人们就意识到把摄像头和屏幕分设在不同位置让人交流起来非常别扭。眼神交流是沟通的关键因素,但如今的视频会议仍然无法在人们之间建立起这种联系。

压缩传感器尺寸是屏下摄像头出现的另一大动力。我们或许可以在今年晚些时候买到带有屏下摄像头的手机,首款量产机 OPPO Find X2 Pro 在 7 月初已经有了定妆照。在手机这样的小型设备上想要最大化屏幕尺寸,往往意味着摄像头、听筒和各种传感器都得想办法靠边站。

把相机放在屏幕后面,我们就可以获得一台完美的全面屏手机,但这也意味着前摄画质的降低。屏幕像素结构的衍射可以使摄像头接收的图像变得模糊,对比度降低,获得的光线显然也会变少,屏幕甚至会完全阻挡某些图像内容,具体方式取决于设备的显示像素设计。

另一方面,在视频会议中,除了眼神不能对焦之外还有其他感官扭曲之处,比如缺乏空间位置的直观展示。

最近,微软提出了使用机器学习解决这些问题的方法,不论是图像质量还是人物在图像中的位置,现在都可以变得更好

透视问题

摄像头位于显示屏上方对于屏幕会议来说会产生一种视觉差,屏幕越大情况越明显:说话人看起来总是仰望的状态。相机与显示器的距离会让参与者们体验不到眼神交流的感觉——我看着屏幕中的你,你却只能看着摄像头说话,其中一个人就会错过很多微妙的非语言反馈提示

这样看起来更像是监视而不是一场对话。

视线的落差会让视频会议的效果打上折扣,无法充分展示每个人的存在感,重现面对面谈话的所有潜力。只有把摄像头放在屏幕下才能充分发挥眼神交流的潜力。

衍射的问题

通常,使用透明的 OLED 屏幕(T-OLED)可以允许摄像头在屏幕后拍摄出可用照片,但即使这样的屏幕也不是完全透明的,光线透过这一层会引入衍射和噪声,从而降低图像质量。

如下图所示,我们可以看到通过 T-OLED 屏幕拍摄简单图像的效果:

屏幕的像素结构会影响衍射。在一些屏幕中,会留有缝隙允许摄像头进行观察:

成像器(右侧)透过 T-OLED 像素结构中的垂直间隙进行观察。

毫无疑问,这会导致明显的降级,但只会出现在水平方向上。我们可以通过绘制调制传递函数(modulation-transfer function, MTF)来可视化此效果:

使用 U-Net 进行图像恢复

为了补偿通过 T-OLED 屏幕拍摄时无法避免的图像质量下降,研究人员使用 U-Net 神经网络结构对其进行恢复,既可以改善信噪比又可以对图像进行模糊处理。

U-Net 最初是一个用于分割生物医学图像的卷积神经网络。它的架构由两部分组成,左侧是提取路径,右侧是扩展路径。提取路径用来捕获上下文,扩展路径用来精准定位。提取路径由两个 3×3 的卷积组成。卷积后经过 ReLU 激活和用于降采样的 2×2 最大池化计算。

计算机视觉这个热门方向里,U-Net 是比较有名的方法。通过深度学习算法,我们获得了与原始图像几乎一致的重建图像:

直接拍摄:

屏下摄像头处理前:

深度学习算法处理后:

通过将相机固定在显示器中,并保持良好的图像质量,我们为长期存在的视角问题找到了有效的解决方案。

对话的位置安排

在对话过程中,空间因素也非常重要,但在目前的视频会议系统中往往是被忽略。参与者们彼此相对的距离是非语言交流中非常重要的方面。

微软认为,通过调整人物图像在显示其中的大小,我们可以很大程度上模拟出说话人位置在虚拟环境中的效果。

图像分割

要想这样做,首先要找到人,微软设计了卷积神经网络(CNN)结构来在图像中定位说话的人。

用于分割说话者和背景的神经网络结构。

首先,需要做语义分割以识别并定位图像中的人类。

接下来,我们进行深度分割以找到最接近的人类,指认他 / 她为说话者。这种相对简单的技术在单个发言人时工作效果很好,如果存在多个发言人,则需要应用更为复杂的方法。

校正距离

在远程视图中确定了说话者之后,我们就可以缩放传入的视频,以便将远程会议参与者以更为合适的尺寸显示在本地屏幕上。

一种实现的方法是缩放整个画面,再把人物定位于正中。但在微软的项目中,研究人员尝试了效果更明显的方法:让人物独立于背景进行调整。

将人物与背景分割调整可以带来一些好处,比如隔离掉不希望显示的背景画面,用背景区域直接显示 PPT 或视频等。

经过取景效果的提升以及人物位置的缩放,我们最终获得的远程会议效果距离真实情况前进了一大步。

原文内容:https://www.microsoft.com/applied-sciences/projects/camera-in-display

入门神经网络屏下摄像头视频会议
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

推荐文章
暂无评论
暂无评论~