爱奇艺与北京大学、微软研究院联合提出全新的全景视频流媒体系统EPASS360

近日,爱奇艺与北京大学、微软研究院共同完成了基于AI技术的全景视频流媒体系统EPASS360的论文——《EPASS360: QoE-aware 360-degree Video Streaming over Mobile Devices》,论文被国际移动计算领域顶级刊物IEEE Transactions on Mobile Computing(简称TMC)接收。

该论文提出了一个全新的基于人工智能技术的全景视频流媒体系统EPASS360,可以有效地应用于工业级全景视频业务场景中。在现有家用宽带、WiFi环境下,这个新系统解决方案将根据用户视野所及范围,预测分配码率,保障用户在观看全景视频时看到的画面都足够清晰且流畅。 受益于过去几年视频编解码技术的发展和内容制作的经验,如今全景视频、交互式VR游戏等项目因其沉浸式的视觉体验吸引了用户的广泛关注。

爱奇艺已经发布全景视频在线服务,并自主研发了爱奇艺奇遇VR一体机、手机VR盒子系列等终端产品,致力于打造最佳的观影效果。

360度VR全景视频能让用户获得身临其境的感觉,为了达到最佳全景视频的视觉体验,全景视频需要被设定在8K、16K超高清分辨率模式,但目前家用宽带、WiFi环境下,高码率视频流的网络传输仍是了一项巨大的挑战。考虑到在全景视频播放的过程中,只有视野范围内的画面会呈现在显示屏上,而其他部分的内容尽管被下载及解码,但是用户并不会观看到。从这点出发,对全景视频的编码方案通常采用一种基于平铺区块式的方式,如下图所示,即将原始等距柱状投影图编码的画面切分为网格状,而后根据用户的视窗的位置为各个区块指定码率,使得码率集中在视窗中,从而既节约了带宽又保证了视频质量。

于是,全景视频流媒体系统中的用户体验优化问题,可以转化为对用户视窗位置预测、对用户带宽预测和根据预测为各个区块分配码率三个子问题。论文所提出的   EPASS360是一个基于模式识别和集束搜索(beam search)的全景视频流媒体系统。具体而言,该系统使用前沿的长短期记忆网络(LSTM,Long Short-Term Memory)结合平台日常积累的大数据进行精准的用户视窗位置预估及带宽模式识别。而后,根据预测模型给出的预测结果,EPASS360建立在未来若干个视频片段上的用户体验最优化模型,并根据求解结果进行码率分配。EPASS360采用现在主流的用户体验建模方式,即以播放进程中可实时统计的视窗内的画面码率(越高越好)、视窗内相邻区块的码率差异(越小越好)、视窗内固定位置区块的码率变化(越小越好)、卡顿时长(尽可能避免)四方面测量信息作为优化目标。针对不同的场景或用户偏好,四项指标的权重可以相应地进行调整。与许多传统策略式流媒体系统不同的是,EPASS360可以根据不同的用户体验目标进行有针对性地优化,结合对播放进程的精准识别及预测,使得码率分配更为合理。

EPASS360的设计既保证了码率分配的有效性,又满足了流媒体系统的实时性要求。并且,EPASS360最大程度复用了现有的全景视频编码方案及传输协议,降低了开发及部署成本。在平台日常采集的数据集和公开学术数据集上的实验表明,在各种用户体验目标下EPASS360可以使得画面质量相较于常用的普通无平铺切块的全景视频流媒体系统提升约50%(以PSNR指标计),并且在用户体验目标的最终评分上,相对于学术界最前沿的全景视频流媒体系统,EPASS360能够取得至少5%的提高。

总结而言,EPASS360探索了一种工业界全景视频流媒体系统的解决方案,能够有效地解决超高清全景视频传输中带宽利用率不高的问题,并以最小的代价实现为用户打造最佳的观影效果。

论文链接:https://ieeexplore.ieee.org/document/9024132

产业微软模式识别LSTM微软研究院北京大学爱奇艺
相关数据
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

爱奇艺机构

2010年4月22日正式上线,推崇品质、青春、时尚的品牌内涵如今已深入人心,网罗了全球广大的年轻用户群体,积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。

http://iQIYI.COM
推荐文章
暂无评论
暂无评论~