Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩作者

「半条命」爆火、Quest 2头显大卖的背后:虚拟现实产业将走向何方

「当你在《半衰期:爱莉克斯》中第一次被敌人用枪指着,然后下意识地举起双手时,你就应该明白:未来将至,并且触手可及。」



「你能直接用你的眼睛看到那个巨大的几何球形就这样悬浮在你的面前,超现实的同时又无比真实。」

「沉浸感太强了,我是个坚决不碰恐怖题材的人,玩了个开头就退款了,但是仍然不断地想玩,又买回来了。」


这是几位游戏玩家对 VR 游戏《半衰期:爱莉克斯》(也叫「半条命」)的评价。这部游戏发行之初就收获了 97%的好评,有 4 万人同时在线,甚至被誉为「来自未来的游戏」。透过这款游戏,我们能感觉到,虚拟现实带给人的体验确实改善了不少。

从 2012 年到 2016 年,虚拟现实经历了一段高速发展的时期。但受制于技术、内容、硬件等因素,这一领域又很快陷入低谷,经历了过山车似的大起大落。

虚拟现实怎么才能更好用?昂贵的价格、笨重的头显、糟糕的体验何时才能终结?这是低谷期人们一直在探讨和努力改善的问题。《半衰期:爱莉克斯》的及时出现给行业注入了一针强心剂。与此同时,最新消息显示,去年 9 月份开始发售的 Oculus Quest 2 累计销量已超过 400 万台,超过历代 Oculus VR 头显的总和。种种迹象表明,虚拟现实产业正在回暖。

值得注意的是,这一转变并不是单一技术突破的成果,而是多种技术不断迭代所引发的,涉及显示芯片、光学、人工智能等多个领域。了解这些技术的发展趋势才能更好地把握虚拟现实产业的未来走向。

在一份最新的报告,即《拐点已至 全真将到 -- 虚拟(增强)现实产业发展十大趋势 2021》中,腾讯研究院的研究者针对此问题进行了探讨,并指出了虚拟现实产业中几个比较重要的科技趋势,包括:

  • VR 头显将进一步轻薄化,AR 多种技术路线将会共存;

  • 手柄仍是 VR 主流的交互方式,分体式 AR 以手势和手机交互为主,并将与互联网公司算法合作;

  • 裸眼 3D—光场显示硬件将逐步产品化,采集算法近期内将实现突破;

  • 内容创作门槛不断降低,互联网厂商将凭借内容和生态方面的优势在消费级市场扮演重要角色。


在这篇文章中,我们将围绕这些洞察聊一聊当前虚拟现实技术的发展状况以及未来可能的产业走向。

VR 头显将进一步轻薄化,AR 多种技术路线将会共存

在影响用户使用体验的诸多因素中,VR 头显笨重是一个绕不开的问题,同时也阻碍了 VR 走进大众的日常生活,因此设备的轻薄化、小型化将成为必然趋势。在这一赛道中,超短焦的 VR 显示光学架构被寄予厚望,而反射偏振的折叠光路(Pancake)又是其中最易量产的超短焦方案。

Pancake 可以细分为两片式和多片式两种方案,目前市面上多为两片式,其生产工艺要求简单,成本可控。基于 Pancake 技术方案的 VR 眼镜,图像源发射光线进入半反半透的镜片之后,光线在镜片、相位延迟片以及反射式偏振片之间多次折返,最终从反射式偏振片射出,因此能有效地缩小产品体积。


目前,该领域已经有一些产品亮相,比如歌尔在 CES 上展示的 VR Pancake 镜头模组、和硕和 3M 联手发布的 Pancake 光学一体式头显 VX6 以及 HTC 刚刚发布的 VIVE Flow 等。其中,HTC 的 VIVE Flow 还搭载了眼球追踪解决方案,该方案解决了轻薄体积 VR 实现眼球追踪的难题。

越来越多的超短焦产品及方案的亮相意味着,此路线能够满足市场落地的需要。据此,这份报告预测,未来将有越来越多的产品以超短焦为主。

与 VR 相比,AR 技术的落地还要更难一些,AR 光学专家 Karl Guttag 甚至表示:「如果说 AR 的难度是 VR 的 10 倍,这可能也只是保守的估计。因为 AR 眼镜没办法像 VR 一样,直接将显示屏放在人眼前,否则会遮挡视线。此外,VR 对于头显外观和体积的容忍度更高,而全天候佩戴的 AR 眼镜则需要更轻量化、外观更日常。除此之外,还需要保证显示系统足够透光,不遮挡视线……」。结合上述要求,可满足的光学方案包括 Birdbath 反射镜、光波导等,但它们都有各自的优缺点。

Birdbath 在当前的 AR 产品中比较常见,国内增强现实公司 Nreal 发布的 Nreal Light 以及联想发布的 ThinkReality A3 等产品都采用了这项技术。总体来看,Birdbath 成本低、重量轻、搭配朗伯光分布的屏幕(如 OLED 类屏幕)效果出色,且效率比光波导更高,图像质量也很好。但它的缺点在于:模组较厚(从侧面看不自然)、透光率低(类似于墨镜)、漏光等。

联想在今年年初发布的 AR 产品 ThinkReality A3

相比之下,轻薄、透明度高、综合性能好的光波导正受到越来越多的关注,全球很多 AR 公司都在往这一方向努力,其基本路线包括阵列光波导、表面浮雕刻蚀光栅衍射光波导、表面浮雕纳米柱衍射光波导、体全息衍射光波导等。但这些路线基本都存在视场角小、工艺复杂、成本高等问题,因此量产难度比较大,目前只有少数公司宣布拥有此类技术的量产能力。

基于这些现状,该报告预测,在短期内,上述技术路线将继续共存,但使用场景可能存在区别,比如 BirdBath 可能更适用于视频娱乐、轻游戏场景,而光波导作为颇具潜力的下一代技术可能会更多地出现在消息提醒类产品中。

手柄仍是 VR 主流的交互方式,分体式 AR 以手势和手机交互为主,并将与互联网公司算法合作

未来两年,VR 会抛弃手柄吗?从这份报告和业内人士的分析来看,大概率不会。与数据手套、裸手交互、眼动追踪等后起的交互方式相比,手柄在精准度、延迟、物理反馈、抗环境干扰(如遮挡)、成本等方面依然具有难以替代的优势。

以裸手交互为例,裸手交互要想达到手柄 / 控制器的准确率其实是非常非常难的,但强调沉浸感的 VR 又恰恰对输入错误非常敏感。有位抛弃 Leap Motion 的用户曾解释说,「想象一下有一种高端键盘能让你隔空打字,但是有 1% 的机会你打的 a 会变成 s,打的退格会变为 p,你是什么感受?」

此外,缺乏物理反馈也是裸手交互的一大问题,诺亦腾 CTO、虚拟现实和动作捕捉专家戴若犂就曾举例说,「目前这一代的虚拟现实环境里并没集成像力反馈、仿真触觉这样的功能,那么用户空手跟虚拟环境进行交互,就变成了一件非常别扭的事情…… 比如说咱俩伸手握个手,我并不能真正摸到你的手,就会觉得这件事情非常别扭。」目前,已经有一些手套类产品在尝试解决这一问题(如力反馈手套),但也存在佩戴舒适度差、需要初始化校准、成本高等问题。

所以,要想真正解放玩家的双手,手柄之外的几个技术路线还需要进一步打磨。

和 VR 一样,AR 交互的重点也是人和虚拟物品之间交互的准确性,但这时候再用额外的交互设备就不方便了。首先,AR 眼镜是一种全天候的产品,每天携带手套或手柄会很麻烦;其次,AR 是虚拟与现实的叠加,我们需要解放出双手来与现实环境产生交互。这些特点决定了,裸手交互将是 AR 中更为自然的交互方式。但腾讯研究院的研究者在调查中发现,由于裸手交互尚不成熟,现在的分体式 AR 更多以手机交互为主,手势交互将是未来一个非常有潜力的落地方向。


为了更好地完成交互,AR 眼镜可能还需要集成一些信息转换能力,比如图像识别、文字识别、语音识别、翻译等。

所以总的来看,AR 的成功交互将是软硬件厂商通力合作的结果:硬件厂商负责提供光学模块、显示设备等;软件公司则负责提供各种 AI 算法,如姿态估计(推断物体的位置,如手和手指,用于控制 AR 内容)、图像和场景标注(对图像进行分类,并触发 AR 标签显示)、语音转文字、机器翻译等。


裸眼 3D—光场显示硬件将逐步产品化,采集算法近期内将实现突破

如果你看过《阿凡达》,你可能对里面的全息 3D 显示有点印象。这种显示效果也是虚拟现实产品一直想要实现的愿景之一,与之相关的是光场显示、光场采集等技术。


光场是空间中光线集合的完备表示,它与传统 2D 显示有着明显的区别:传统的 2D 显示器只能提供仿射、遮挡、光照阴影、纹理、先验知识五方面心理视觉信息。光场显示除了能产生传统 2D 显示器的所有信息外,还能提供双目视差、移动视差、聚焦模糊三方面的生理视觉信息。因此,采集并显示光场就能在视觉上重现真实世界。

目前光场显示主要有体三维显示(Volumetric 3D Display)、多视角投影阵列(Multi-view Projector Array)、集成成像(Integral Imaging)、数字全息、多层液晶张量显示等多种技术方案。这些方案各有优劣,比如体三维占地面积大;多视角投影占地面积大的同时成本也高;数字全息技术尚不成熟等。相比较而言,集成成像虽然也呈现出了视点图像分辨率受损等问题,但低廉的成本、较小的体积使其更易于商业化落地。


这份报告指出,未来,光场显示将随着设备量产化走向消费电子品领域,成为现有的 2D 显示设备的挑战者,从而颠覆对 3D、立体内容显示有需求的多种场景,包括游戏等互动娱乐、广告文创、视频会议、医疗影像、科研与教育等领域。

其中,集成成像因支持多人裸眼观看、 可视范围大、视角连续而在会议等场景中颇具潜力。但与此同时,该路线也面临着一些挑战,比如反射场、纹理的采集和重建需高精度设备;多视角拍摄内容、画面重建、压缩需要算法支持;流媒体编解码传输对网络要求高等。不过,报告指出,采集算法等问题有望在近期内取得突破,因为目前已经有一些厂商在努力解决这类问题,比如谷歌在今年的 I/O 大会上发布的一款结合 3D 呈现、实时视频压缩、空间音频、计算机视觉机器学习等技术的 3D 光场显示方案:Project Starline。谷歌表示:Starline 可呈现一种具有体积和深度的立体感,无需额外的眼镜或头显。

Starline 效果展示。

伴随着这些问题的解决,集成成像领域有望形成硬件 - 算法 - 传输整合的解决方案。

内容创作门槛不断降低,互联网厂商将凭借内容和生态方面的优势在消费级市场扮演重要角色

除了以上几大趋势,报告还提供了关于虚拟现实内容创作、生态建设等方面的一些洞见。

报告指出,在内容创作方面,三维重建技术的快速发展、低代码 3D 内容编辑器的发展成熟以及全景相机、深度相机的普及大大降低了虚拟现实内容的创作门槛。比如,加州大学伯克利分校和谷歌的研究者去年就开源了一款 2D 图像转 3D 的模型——NeRF,它可以利用少数几张静态图像生成多视角的逼真 3D 图像,其改进版模型 NeRF-W 还能适应充满光线变化、遮挡的户外环境。

NeRF-W 的生成效果

在生态建设方面,虚拟现实产业正在经历互联网与 VR 不断融合的过程,因此互联网厂商将凭借内容和生态方面的优势在消费级市场扮演重要角色。以最近改名为「Meta」的 Facebook 为例,这家公司在改名当天其实还宣布了一系列关于构建虚拟现实世界的计划,涉及工作、社交、教育、健身等多种场景,比如允许用户向朋友发送 Messenger 消息、允许用户使用办公帐户登录 Quest 2 头显的 Quest for Business 等。

伴随着技术的迭代升级和生态的逐步完善,虚拟现实正在解锁越来越多的场景,比如休闲游戏、体育赛事、文娱演出、线上社交等。但报告指出,除了这些之外,更重要的是虚拟现实的社会价值正在不断凸显。目前,我们已经看到一些比较成功的探索案例,比如清华大学用 VR 进行心理治疗,一些组织将虚拟现实技术应用于老年人及听障人士提醒等。这份报告认为,进行这种具有社会价值的探索将是虚拟现实未来的重要方向。未来,我们希望看到更多此类应用的面世,从而惠及更多、更广泛的社会群体。 

参考链接:

https://www.3dmgame.com/score/3742269.html
https://ngabbs.com/read.php?tid=25603623&rand=924
https://m.zhitongcaijing.com/article/share.html?content_id=479934
https://www.163.com/dy/article/G8JVDI0K0511BQR8.html
http://www.360doc.com/content/21/0831/19/48863136_993539968.shtml
https://www.sohu.com/a/271025171_114877
https://www.vrtuoluo.cn/column/supervtalking/522248.html
https://www.zhihu.com/question/20252985/answer/365961003
产业腾讯虚拟现实
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
HTC机构

宏达国际电子股份有限公司,成立于1997年5月15日,简称宏达电,亦称HTC,是一家位于中国台湾的手机与平板电脑制造商。是全球最大的Windows Mobile智能手机生产厂商,全球最大的智能手机代工和生产厂商。

https://www.vive.com/cn/
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
三维重建技术

三维重建是指利用二维投影或影像恢复物体三维信息(形状等)的数学过程和计算机技术。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~