蛋酱报道

想看哪里点哪里:街舞3、CBA都在用的「自由视角」,阿里文娱是怎么打造出来的?

看《街舞 3》总是找不到自己 idol 的身影?优酷:问题不大,请用「自由视角」。

说到经典电影《黑客帝国》,还记得男主角 Neo 躲子弹的场景吗?

大概因为这一画面令人印象太过深刻,即使基努里维斯时常「流落街头」,也仍然是许多人心目中的男神。

这种依靠摄影技术达成的模拟变速特效,也因此得名「子弹时间(Bullet time)」。

在上个世纪,这类场景的制作方法相对复杂,需要使用一整排照相机进行拍摄,然后将每个相机拍好的图片叠加在一起,再生成视频。本质上看,「子弹时间」就是在时间接近静止状态下呈现空间的不断变化,以此来形成一种强烈的视觉冲击感。

当然,这么多年过去了,「子弹时间」的制作技术和水平也经历了多次迭代,并实现了从「定帧观看」到「视频观看」的飞跃。随着 5G 技术的普及落地,一种名为「自由视角」的视频交互技术逐渐走进了大众的视野。

什么是「自由视角」?

首先,我们可以从 6DoF(6 degrees of freedom)这个 VR 领域常见的概念说起。物体在空间中运动时六个不同的自由度,包括前后、左右、上下三个平移自由度,以及三个旋转的自由度,对应点头、摇头、歪头。

严格来说,子弹时间是 2D 视频,更侧重后期制作。而 6DoF 视频,用户可以在观看过程中通过手指拖拽操作,选择观看角度和位置。虽然摄像机是线状的,但可以不依赖原始摄像机位置,实现上下和前后位置的调整,包括近景的人物特写、远景的全景画面。

2019 年,优酷首次将 6DoF 视频技术应用到国内体育赛事(如 CBA 揭幕战)直播中,将投篮画面做定格,将运动员相对的位置关系、动作,通过多视角呈现,带来更具现场感的观看体验。

相比于传统的视频交互方法,6DoF 视频的优点显而易见:首先,「脚可以动」,用户可以虚拟和移动观看位置。其次,「手可以动」,通过一定的手势操作来影响视频内容画面本身。

再看这段选手投篮的瞬间:触摸屏幕会使整体场景静止,实现更加精细化观看的体验。

在今年的综艺节目《这!就是街舞》第三季中,优酷 APP 端还上新了一种新的交互功能,名为「自由视角(FVV,Free Viewpoing Video)」,用户可以用手指在屏幕上自由滑动,从不同角度观看选手表演的更多细节。

「自由视角技术」和 6DoF 视频在概念上有什么不同?简单来说,6DoF 视频是一种「Inside-Out」的观看方式,以用户为中心,展现平移自由度和旋转自由度;而自由视角技术可理解为「Outside-In」的观看方式,乍看之下更像 3D 游戏的操作手法。因此,自由视角技术也非常适合综艺、体育、影视等场景,带来自由沉浸式的立体互动体验。

在这样极具交互感的功能上线后,阿里文娱摩酷实验室也首次介绍了自由视角技术幕后的整套解决方案。据介绍,自由视角技术互动的制作包括软硬件、云端三维重建、视频压缩和传输、客户端视点重建、视频标准建设等一系列环节。

「街舞 3」是国内首个向 C 端用户开放自由视角技术互动体验的综艺节目。从录制现场照片来看,环绕舞台共安装了超过 40 台专用相机,形成阵列采集画面,全方位记录每个精彩动作,并且实现毫秒级同步。自由视角技术可以全方位展现街舞中齐舞的魅力,同时对选手要求比较高,每个人的面部表情以及动作都要到位。

值得一提的是,这项技术还会在明年初运用于北京冬奥会的测试赛中。

技术链路

据阿里文娱摩酷实验室介绍,自由视角技术的布局主要分为以下几个主要部分,分别覆盖内容拍摄、制作再到用户终端交互的全链路。

系统架构图。


现场拍摄:软硬件方案

实际上,对于自由视角技术来说,拍摄采集是最难做到标准化的部分。作为整体技术链路的第一环,拍摄采集对于内容的呈现效果和后续的算法效果都起到至关重要的作用。相比于单机拍摄来说,相机阵列的现场控制会有更高的的要求。

为此,阿里文娱摩酷实验室设计了一套兼顾高稳定性和易用性的现场软硬件解决方案。这项技术与传统的密集相机阵列动态切流的方法不同,它能够在稀疏相机的条件下在用户的 APP 端呈现出很不错的多视角效果,是目前业界单场性价比最高的解决方案。同时在传输层面,也能解决密集相机阵列因数据量过大导致的交互范围受限等问题。

目前,相机阵列拍摄系统能够支持 50 + 相机录制视频的毫秒级同步,并且相机阵列中的所有相机都可通过统一的远程控制来做参数设置和效果验证,极大加快了现场的部署和调试时间。

硬件之外,阿里文娱摩酷实验室还自研了一套完全图形化界面的软件系统,对现场方案进行管理。该系统的稳定性已经达到商用级应用级别,在 CBA 场景和优酷自制综艺场景中,已经稳定运行了 70 余场,让非专业技术人员也能对现场复杂的相机阵列系统进行控制和调试。

软硬件方案中还包括一套现场软件和云端计算的通信协议,在现场软件对相机拍摄视频和图像进行实时拉流处理后,能够直接上传到云端进行立体视频效果的制作和验证,现场人员可以立即看到效果并做出及时调整,让现场方案成为一个高可用性的质量管理闭环。

云端三维重建系统

要生产出高质量的互动立体视频,三维重建的算法和能满足业务时效性需求的大规模生产系统是至关重要的。

在文娱应用中,三维重建技术落地并实现商业化的难点在于,对算法选型和端到端的实现路径需要有综合性的统筹考虑。比如在三维表达形态的选型中,有点云和深度这两种方案,由于点云目前的数据量大,没有成熟的编解码标准和硬件解码支持,并且对于综艺这类场景布景和光线真实度还原要求比高的场景,点云无法做到很好的建模。因此在技术路径上,阿里文娱摩酷实验室采用了基于深度的三维表达。

但基于深度的路线本身也存在自身的难点,综艺的场景非常复杂,每一场都有不同的舞美、灯光、舞蹈动作等设计,要想让算法对不同的场景具有鲁棒性,需要引入端到端的系统性考量。

从算法处理往前看,三维的重建依赖的是现场相机阵列采集到的图像,那么要达到重建的质量要求,有很多问题必须考虑:现场的相机阵列按什么形状来部署?相机密度如何设计?相机和拍摄场景的距离怎么考量?相机的拍摄高度及角度和舞台的关系?如何在采集中减少光线的干扰?这些前置的考虑都会影响到重建算法的质量,需要在实践中摸索出一套最优的方案。

在拿到采集图像后,算法本身也需要各方面的调优,小物体、复杂遮挡区、光照变化、快速运动模糊、时域稳定性等问题都是三维重建的老大难问题,该方案中的重建算法通过融合传统的匹配算法、图像分割、多视角三维信息的交叉校正、重建稳定区域分析,以及多分辨率重建融合、深度学习等策略,很大程度地改善了以上的问题。

如果从重建算法往后看,还要考虑到压缩传输的带宽以及客户端渲染的性能问题,通过大量的实验分析,阿里文娱摩酷实验室采用了深度信息的降采样策略和深度图的定制化编码策略,把信息压缩到目前用户带宽能够承受的程度,做到在用户终端有好的呈现效果。目前,这些技术都已经申请了专利。

通过不断的业务实践,该系统重建算法的效果和生产时效性与稳定性目前都达到了可商用的水平。阿里文娱摩酷实验室结合不同的业务场景,为像 CBA 这样的体育场景和优酷自制综艺(如《这就是街舞》、《这就是灌篮》)不断打磨和定制了不同的算法策略,从而使得在不同的场景下算法效果都能够达到最理想的状态。同时,为了把控复杂系统的端到端的算法效果,在云端完全模拟了用户终端交互的链路,搭建了一个全链路的算法仿真验证平台,通过这个平台就能够 100% 的在云端通过算法仿真验证用户端实际看到的效果,从而对终端用户实际看到的图像质量进行保障。

由于三维重建算法需要大量的算力,阿里文娱摩酷实验室在云端部署了 30 多台 GPU 的计算集群,来对综艺和体育场景的拍摄素材进行高并发的重建和生产。比如,在一个典型的高时效性应用中,比如 CBA 篮球场景,在一个进球后需要马上回放出立体视频的特效,目前的云端并发处理系统已经能够做到准实时(延迟 10s)的制作,能够满足体育场景导播的要求,相关的效果已经多次在央视 CCTV5 的 CBA 直播中得到应用。

另外,对于互动立体视频在时空域上的重建稳定性问题,为了在算法侧追求极致的体验,阿里文娱摩酷实验室也融合了一些更复杂的时空域稳定性增强策略。目前在应用和尝试的包括,通过深度学习模型来学习得到时空域更稳定的重建结果,并和传统算法进行后融合;同时团队也在探索具有更好时空域稳定性约束的算法。

视频压缩和传输

对于自由视角视频的压缩传输来说,主要难点就在保证终端能够重建出高质量图像的同时,还得兼顾当前终端的解码能力和传输带宽。也是一个需要深度优化的技术问题。阿里文娱摩酷实验室采用了基于纹理和深度拼接的 3D 场景表达,适配目前已有的视频压缩标准,并且针对深度图压缩的特殊性,做了比较深入的定制优化。

深度图的压缩有两个方面的难点:第一是深度图的表达数据量大,重建的深度图分辨率是和纹理图分辨率完全一致的,所以需要考虑怎么去降低深度图的分辨率,同时不对终端的视点重建造成明显的损失。第二是深度图对于压缩损失敏感,特别是物体的边缘部分,深度图一般都是变化非常锐利的,一般的压缩参数很容易因为量化导致深度图的物体边缘部分受到损失,从而严重的影响终端视点重建的图像质量。

针对第一个问题,阿里文娱摩酷实验室提出了深度图云端降采样 + 终端升采样的算法,能够在云端压缩前将深度图的分辨率最多缩小到纹理图的 1/16,并且在终端升采样到和纹理图相同分辨率后进行视点重建,并且不断优化算法使得重建质量没有明显损失;针对第二个问题,阿里文娱摩酷实验室提出了基于深度图区域 ROI 编码的方法,从而使得深度图在编码中的量化损失能够得到有效的控制,同时码率也不会大幅度提升。

在视频传输方面,阿里文娱摩酷实验室针对实际业务所要求的灵活性和普适性,自研了一套云和端一体化的视频传输协议,这套协议能够通过云和端的协议约定,支持不同的现场采集相机数量和布局,不同的终端交互范围设计,以及不同分辨率的互动立体视频,这套自研的传输标准能够保证任何终端在解析协议后都能够正确的互动和播放。

实现「视角自由」:为 5G 而生

目前,优酷为高端和中低端手机用户提供了两版不同的体验。「街舞 3」的部分观众可能会发现,优酷上线的「自由视角」功能仅支持 70 度的交互范围。这是因为该技术对于手机性能和网络状况仍然有一定的要求。

以客户端视点重建为例,由于用户互动的任意视点重建都需要在终端完成,算法的时效性和低功耗也是非常重要的影响因素。通俗来说,即使是中低端手机的观看体验,也必须做到交互流畅,且尽量减少机身发热。

从目前的工作来看,经过对移动端视点重建算法的深度优化,现在的版本已经能够覆盖市面上的主流机型。但要想体验到 150 度的交互,你可能需要一台 5G 手机。

150 度互动范围。

随着 5G 的广泛应用,自由视角技术也会走进更多的视频节目中,发挥更大的作用。财富自由或许很难,但实现「视角自由」指日可待。也许在不久的将来,每一位观众都能够做到「足不出户」但「身临其境」。
产业VR
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

推荐文章
暂无评论
暂无评论~