跟随弹幕停不下来?智慧文娱还有哪些新玩法 ​

阿里妹导读:随着 5G 开启商用、机器智能愈发成熟,在技术发展的新阶段,我们在文娱的体验上将会有怎样的提升?本文将通过十个场景来分享技术革新下智慧文娱的新玩法。

一  修复版《士兵突击》,帧享 60 帧的《重生》,你看了吗?


回想 10 年前看士兵突击的时候,29 寸电视机绝对是“大电视”。但是今天 40 寸、60 寸已经非常普遍,甚至很多家庭直接使用投影仪看剧。尺寸越来越大,我们对清晰度的要求就越高。

如何让视频更清晰?今年年初优酷联合内容制作侧、终端消费侧的产业链合作伙伴共同推出了一套超高清解决方案——帧享,从内容创作、超高清重制、终端渲染等各个环节严格把关, 精益求精,真正呈现出 “每一帧,都享受”的高水准视听效果。

《重生》是优酷重磅打造的悬疑题材热剧,很多的镜头和情节处理都非常适合叠加我们的高帧率和声场技术,所以,我们通过视频超分辨率、视频插帧、SDR 转 HDR,立体声增强等技术手段,让画面细节更细腻、让动态场景更顺滑,让声场更立体,真正做到身临其境的超爽视听体验,最重要的实现普惠,让千元安卓机也同样流畅看高清。
大家都知道,优酷创立的时间很早,视频库中有很多老视频资源,而老视频资源中存在的最普遍问题就是噪声和模糊。我们通过高清修复技术,实现批量去噪、去模糊、去划痕、去闪烁、去抖动、高帧率等能力,修补之外重新调色,用工业化方式解决老片修复问题。2006 年单机工作室修复一部两小时左右的电影需要数十天甚至上百天的时间,现在通过异构计算平台,修复一部经典电影到 4K 仅要 1 小时。比如 80 后的集体记忆:还珠格格、士兵突击、家有儿女等都在修复后换新颜。

二  用优酷追剧为什么不卡?


视频高清了,如何不卡顿?视频清晰度的选择那么多,如何选择刚刚好的模式?从地跌的“移动”网络到家的 Wi-Fi 稳定网络,如何能不麻烦的做转换?

“智能档”要解决的关键问题就是“高清不卡”,并且自动匹配合适的清晰度,这背后是自适应码率技术的支持。码率自适应技术,并不是新技术,在学术界早已有非常多的论文。但这样一个成熟“学术”技术,在真正大规模落地过程中,遇到了很多问题和挑战:
  • 第一, 国内用户对这一功能很陌生,甚至觉得比较“傻”;

  • 第二, 用户评判“体验好”的标准比较主观,流畅和高清的平衡点难把握;

  • 第三, 公开的算法框架的实际效果不理想。原因是特征纬度单薄,对实际细节考虑少。

在技术策略之外,我们主要想分享,如何将成熟的学术算法落地到工程业务场景:
  • 第一,抓住算法框架的核心点,不要太在乎结构性,要看算法解决的核心问题的切入点,和你要解决的是不是一个问题,是不是能借鉴;

  • 第二,与大数据有关的算法,一定要关注好数据集的质和量,结合自身业务,积累高质量的大量数据;

  • 第三,算法效果的度量标准,结合业务场景来看,尤其是那些非标准化、不好量化的场景,避免生硬的套用已有标准,毕竟你才是对问题最了解的人;

  • 第四,像 AB 测试、大数据 Pipeline 等工程系统能力,确实对产品技术的迭代效率提升是非常大的。 


三  前方高能!基于人脸识别的跟随弹幕来了


要高清不卡,还要参与互动。在追剧时,第一好看是剧情,第二好看是弹幕,而且有些剧里弹幕甚至比剧情还要精彩,比如上过热搜的出自《东宫》的那一句“谈恋爱吗?灭你全族的那种”。正是由于这些神一般的网友频频曝出精句,让某些剧集精彩程度翻了几倍。

喜欢用优酷看视频发弹幕的同学应该已经发现,很多剧都上线了基于 AI 人脸识别的跟随弹幕,以往的普通弹幕或高级弹幕都是在播放器顶端自右向左以跑马灯式的效果展示,而这种跟随弹幕是以气泡样式挂在人物头像旁边,随着人物移动而移动。这种跟随弹幕可玩性更高,有才网友可发挥余地更大。
结合人物动作的玩法
结合人物所处场景的玩法

 自编自导人物对话

从几个视频 demo 中可以看出,相比普通弹幕,这种跟随弹幕是以一种类似剧中人物的内心 OS 的方式展示出来的,与视频无割离感,更有趣更新颖更精彩,有更多玩法。
 

 人脸跟随弹幕的架构分成算法侧、服务端、客户端三层:
  • 首先,算法侧按每秒 25 帧的频率进行视频抽帧,对每一帧进行人脸识别,配合人脸跟踪和平滑处理,生成每一帧的人脸元数据;
  • 其次,服务端将多个帧的人脸元数据通过降噪、防抖、合并后组合成一组组的人脸组数据,将该数据与跟随弹幕数据一起下发给客户端;
  • 最后,客户端在互动 SDK 中将每组人脸数据生成一个脚本,脚本中完成弹幕跟随该人脸轨迹的移动而移动。

剧中的人脸数据如果只应用在跟随弹幕中就大材小用了,下一步我们准备把带有人脸数据和人体数据的脚本做为基本脚本,后面除了跟随弹幕脚本,还会有弹幕穿人脚本等等。后续客户端这部分架构可能会调整,方便大家通过外部注入等方式,构建自己想要的脚本。 

四  让你自然美的实时直播美颜技术


看高清、发弹幕还是不过瘾?那就来直播。在经历了在家上课,在家办公之后,非常多的一线教师、职员、程序员都开启了直播之路。打开摄影头,心里有点发慌?实时直播美颜技术,让你1秒变美,而且是自然的美。

为达成人脸美颜效果,在技术上我们主要通过以下四个关键步骤来实现:
 

其中,脸部美型处理主要包括脸型调整和脸部器官调整,核心步骤是基于人脸关键点通过图像形变的形式来实现脸部各器官的形状调整。图像形变算法主要是局部扭曲算法和三角剖分,局部扭曲算法一般包括局部缩放、局部平移、局部旋转等,如大眼功能即可通过局部缩放来实现。三角剖分的方法则是通过对三角网顶点进行平移,再将平移后的顶点更新到对应的纹理坐标,通过 openGL 或者 D3D 进行绘制渲染,从而实现整个关联三角网的变形。具体的脸部美型效果如下图所示:
 
在性能方面,在 iphone 6 Plus 等中低端机型上,可实现 720p 24fps 实时人脸美颜;

在效果方面,通过对皮肤的处理,可使人脸皮肤达到白皙细腻的效果,同时主播可按照自己的喜好对脸部的任意器官进行调整。

目前人脸美颜功能已在来疯直播(移动端和 PC 端)、优来播移动端及淘宝直播 PC 端落地,来疯移动端主播日均开播人数实现一倍增长。具体的人脸美颜效果如下图所示:
 

五  优酷酷看体验:你猜老胡是卧底吗?


细心的观众已经发现,优酷视频中出现了很多有人情味的“黑科技“,比如百科 tips、角色伴侣、剧情竞猜等,让用户“边看剧边互动”,这就是优酷的酷看模式。酷看模式在移动端采用了多路流的同屏展示、智能平滑切换、精准同步和动态化渲染等技术。其中动态化渲染、子母屏和多路流同步播放是酷看模式在端侧的核心能力,能够做到多路流、多机位视频帧级同步播放。 

六  不知道看什么?多模态搜索来帮忙


与中午吃什么一样伤脑筋,用户打开视频平台,常常面临一个难题是 “不知道看什么、不知道如何搜索”,针对这个痛点,文娱人工智能平台提出了基于多轮对话式搜索系统。
 
交互式搜索系统采用模块化的设计思路,按照分层逻辑结构,分为应用技术层、核心技术层和基础数据层。应用技术层主要包括是自然语言理解(NLU)和对话技术,其中 NLU 包括意图理解(Intent Understanding)技术和成分分析((Slot Filling)技术;对话技术包括对话管理(DM)以及对话生成(NLG)。核心技术层包括知识图谱(Knowledge Graph)的构建和推理应用。基础数据层是基于视觉技术的智能媒资库。
 
 
用户在视频这个垂直领域,意图和属性槽相对比较明确,整体以有限状态机的方法为基础,基础动作迁移状态以人工设计动作为主;模型的方法作为泛化能力,解决不确定场景的理解。

系统对话流程如下:

用户说“我想看类似宫心计的电视剧”,系统通过语音识别(ASR)和自然语言理解(NLU)技术理解分析用户想看‘宫斗剧’,通过检索反馈给用户‘宫斗剧’相关电视剧,并通过自然语言生成(NLG)技术主动和用户作进一步的交互,得到用户想看‘孙俪’主演的需求后,系统基于多轮对话管理(DM)技术将前后两轮的用户综合理解,向搜索引擎发起再次检索实现多轮交互。

七  视频物体分割:在视频中随意“抠图”


视频物体分割(Video Object Segmentation,简称 VOS ),顾名思义就是从视频所有图像中把感兴趣的物体区域完整的分割出来。
 
阿里文娱摩酷实验室从 2019 年 3 月底开始从事半监督和交互式视频物体分割算法的研究。

2019 年 5 月,我们完成一版基础的半监督视频物体分割算法和交互式视频物体分割解决方案,并以此参加了 DAVIS Challenge on Video Object Segmentation 2019,在交互式视频物体分割赛道获得第四名。

我们提出的 VOS with robust tracking 策略,可以较大幅度的提高基础算法的鲁棒性。在 Davis 2017 验证集上,我们交互式视频物体分割算法 J&F @ 60s 准确率从 3 月底的 0.353 提高到 5 月初的 0.761。现在,我们的半监督视频物体分割算法也达到了 J&F = 0.763。可以说,在这个集合上我们的结果已经接近业界一流水准。一些分割结果示例如下: 

八  数据反映的是真实的观看体验吗?


看基于人类视觉感知的视频体验评价体系怎么回答:

随着 4K 电视、HDR 技术、multi-view、free-viewpoint video、360 视频、虚拟现实 VR、增强现实 AR 以及混合现实 MR 的发展,Qualinet 定义的 QoE 的概念可以无差别的直接应用于这些多媒体载体上,所以在业界被广泛采用并认定其为标准定义。
 
为什么要做质量评价?因为用户的观看体验永远是第一位。而在整个视频从获取,处理,压缩,传输到最后解码,增强,播放的 pipeline 中,每一个阶段视频质量的评估可以指导和优化相对应的算法实现,进而实现每一个阶段算法效果的提升,最终导致用户观看体验的提升。这是我们的终极目标。
 
阿里文娱摩酷实验室依据 ITU 国际标准,搭建了自己的主观测试平台。

摩酷实验室主观测试流程
 
5G 的到来势必颠覆用户的观看习惯和体验。目前已经出现的新型多媒体技术,比如 Light-field Imaging, AR, VR, 360 VR, MR, High Dynamic Range (HDR), Free-viewpoint video, 以及 Autostereoscopic 3D 将会是未来 5G 时代的主流。以提高用户多维度的感知体验为目的下一代视频内容生成,视频压缩,视频增强,depth estimation,  view synthesis 等技术势必需要质量评价方法来做监控。同时,这其中有可能产生的会引发观众视觉疲劳等危害身体健康的视频更需要质量评价方法去做前期评估预警。 

九  竖屏看热剧如何实现?


近两年,随着竖版视频的流行和播放转化效率,用户对竖版视频的消费需求越来越旺盛。针对这一需求,优酷将基于机器视觉的视频裁剪技术应用于视频二次生产和智能封面图生成业务中,智能裁剪技术主要应用于以多人或者单人为主体的场景,我们将目标检测,跟踪,识别等技术进行创新和结合,开发了完整的视频智能裁剪技术链路,面对实际业务中的主体标定,视频帧间抖动,视频黑边填充等问题针对性的研发了算法解决方案,可以根据不同的业务场景将各算法可插拔的配置进主裁剪 pipeline 中,视频智能裁剪技术的研发给内容行业的素材自动化制作,剪辑作品的视觉效果和制作成本降低等方面都带来了大幅度的提升。
 

在视频智能裁剪技术链路中,我们研发了前处理模块(包含镜头切分, 画面尺寸判定,黑边检测裁剪等),主体标定模块,主体追踪模块和后处理模块(包含画质增强,字幕/logo 检测,画面内容修补等)。

目前视频智能裁剪技术生产的视频和封面图广泛应用于优酷的各个场景,我们对视频智能裁剪算法栈进行了整体性能优化,达到处理时间仅 1:2 视频时长,目前该技术累计对优酷综艺:演技派、这就是街舞、这就是灌篮;优酷剧集:陆战之王、天雷一部之春花秋月、微微一笑很倾城等百部 OGC 进行裁剪服务,裁剪后的竖版视频用于抖音,微博等外渠宣发和站内投放,同时主体标定算法服务于搜索双列封面图转竖项目,镜头平滑算法服务于弹幕人脸项目。 

十  推荐如何又好又准?


如何为用户推荐真正想看的视频,这离不开对视频内容的理解,在个性化视频推荐中,为了对视频的内容进行表征,一种常用的方法是给视频打上多个标签,每个标签代表了一个视频中的主要元素。优酷过去的标签算法主要依赖于文本分析,当视频的文本元信息(标题、描述、评论等)对主题的描述不明确时,我们常常无法分析视频内容。为了解决这一问题,我们采用文本、封面图、音频、视频多种模态信息对视频进行多标签分类,大大提高了建模的准确率。从而提升推荐成功率。
 
多模态视频多标签分类结果示例

当然,音视频模态面临的一个严重问题是对于知识的提取能力有限,文本模态对于实体有更好的提取与推断能力。在下面的例子中,音视频模态会以更高的权重推断「古装剧」和「历史剧」,而文本模态则会推断「虎啸龙吟」与「司马懿」,最终的融合模型则可以融合两者的优势获得更完整的推断结果。
 


阿里技术
阿里技术

分享阿里巴巴的技术创新、实战案例、经验总结,内容同步于微信公众号“阿里技术”。

专栏二维码
产业图像处理智能文娱
1
相关数据
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

有限状态机技术

有限状态机(英语:finite-state machine,缩写:FSM)又称有限状态自动机,简称状态机,是表示有限个状态以及在这些状态之间的转移和动作等行为的数学模型。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

文本分析技术

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

机器视觉技术

机器视觉(Machine Vision,MV)是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法,通常用于工业领域。

图生成技术

根据给定信息信息生成图表。

视频超分辨率技术

视频超分辨率是将视频从低分辨率升级到高分辨率的任务。

对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~