Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

AI大规模介入综艺节目制作,剪辑师的好日子终于来了

还记得北京春晚的神剪辑吗,剪辑师真的不容易。

撰文 | 太浪

要谈AI+娱乐领域,优(酷)爱(奇艺)腾(讯视频)是避不过的三个山头。

其中,爱奇艺是三家中对外讲述AI技术最多的。

十天前,爱奇艺官宣,其会员数量突破1亿,中国视频付费市场正式进入「亿级」会员时代。爱奇艺还称,1亿会员规模背后,是内容创新、技术创新、生态构建等多方面的综合作用。

技术创新方面,不得不提AI。爱奇艺首席技术官(CTO)刘文峰曾在5月份的爱奇艺世界大会上介绍了AI在爱奇艺整个运营流程中的应用,他称,「AI发挥的作用无孔不入,已经贯穿视频内容的创作、生产、理解、分发、播放到变现以及客服整个流程中。」这建立在AI理解用户和理解内容的基础之上。

在理解用户方面,爱奇艺准备充分。每位爱奇艺的用户都有画像,用户在爱奇艺上的每一次观影行为、搜索行为、互动行为都在为其用户画像提供源源不断的数据,并使它越来越精准。

2017年爆火的《中国有嘻哈》(现《中国新说唱》)便是爱奇艺通过大数据看用户行为、AI分析之后决定做的节目。选吴亦凡、邓紫棋当评委,也是机器和算法在对爱奇艺站内每一个喜欢嘻哈的用户行为进行分析,萃取、提炼出「这些人中,粉男性艺人的,粉吴亦凡比较多;粉女性艺人的,粉邓紫棋比较多」的关键信息后给出的结果。

内容方面,综艺节目一直是内容行业的一个重要分支、能否持续输出高质量、好口碑的综艺节目,决定了视频平台能否掌握未来综艺行业的话语权。《奇葩说》后,自制综艺成为爱奇艺一直坚持的一个内容方向。爱奇艺甚至开发了基于AI技术的大型节目制作系统——爱创媒资系统,辅助大型节目的制作。目前,该系统已经应用于《中国新说唱》《我是唱作人》等综艺中。

1 行业痛点:工作任务庞大、制作周期短

综艺节目的制作在流程上分为前期策划、中期拍摄、后期制作和包装三个主要部分。

业内普遍认为,前期与后期对节目品质的贡献「五五开」,甚至有「三分靠拍、七分靠剪」的说法,后期环节成了节目能否成功的关键。

综艺节目的后期制作,包括剪辑、节目包装、花字制作、音乐音效编辑、调色、合成等一系列精细化生产流程。

但传统的影视节目制作工艺是全程靠手工进行后期制作。「工作任务庞大、制作周期短」,综艺节目的后期制作对素材进行上载、转码,对时间码、挑素材的工作量和时效性要求比影视剧更高,使得后期制作人员在机房熬夜、吃住在机房成为「家常便饭」。







影视圈也是个「吃青春饭」的行业,一项影视行业熬夜现状调查显示,30岁以下的人占比高达79%;天天熬夜的人占了35.64%;因为加班而熬夜的占比68.32%。

比如,拍摄《青春有你》时,将近100个训练生、6位导师,每个人都要有镜头,上百台机器要记录每个训练生的学习生活,拍摄其中一期时,设备一天就生产了3000个小时的素材,最终要剪成2个多小时的节目导出传输,而制作时间只有一周左右。

爱奇艺2014年就开始布局AI,积累了多年的AI技术能力,怎么帮后期制作人员做一些事情?怀着这样的心情,爱奇艺技术产品团队的技术人员进入节目组,去了解综艺节目的拍摄、制作流程,寻找后期制作人员的痛点,并发掘AI的应用场景。

他们发现,实际在整个后期制作过程中,包含大量操作简单、重复性高且繁重的基础性、非原创性工作,比如合板、去除废片、识别精彩镜头、配字幕。

合板,指将多个不同机位的视频素材内容对齐到同一时间线,是后期剪辑的基础。

不同机位的摄像机间可能会有时间差。一秒等于24/25帧,摄像机之间的时间轴差一秒,就千差万别。比如,XX时XX刻,某位嘉宾说了一句话,有两台摄影机同时在拍、同时收声。将两个机位的视频素材合起来后,如果不能精确到帧进行对齐,就会造成重音、混音。因此,需要人工以帧为单位,将不同素材对齐时间轴。

而且,在完成合板之前,无法进行下一步。剪辑师只能等所有素材合完板,有了主体的时间线后,才能接手。进入剪辑环节后,根据主体的时间线挑选素材,cut(剪)出毛片。

由于拍摄过程中可能存在摄影机开机、但是没摘镜头盖或失焦等问题,导致黑屏镜头、模糊镜头等无用素材(也称「废片」)的产生,因此,在精细剪辑之前,需要先去掉这些废片。

进入精细剪辑环节后。便是编剧综合现场观察以及后期拍摄片子的内容,开始思考如何组织剧情,然后和剪辑人员沟通,最终剪出一个完整的片子来。

而在编织剧情的过程中,若是想要某位嘉宾做了某个动作/表情的特写镜头,需要在好几百个小时的素材中寻找,花费大量人力成本。

精彩镜头:吴亦凡、潘玮柏比心

对编剧而言,了解素材内容也是剪辑的基础。因此,需要通过扒词,将视频素材里的所有内容(包括对各位评委、选手的采访)转化成文本。

而传统制作流程中的扒词要经过人工听声音-手动敲字幕文字-校对这一复杂流程。而且,在《中国新说唱》这样的综艺节目中,选手语速较快,且中英文交杂,人工未必能一次就听清选手演唱的歌词;评委和选手间夹杂中英文的小声交流,也会给人工听打字幕带来挑战。

若是人工扒词,1小时的视频,需要消耗2到5小时的时间;人工唱词(包含人工听声音-手动敲字幕文字-校对-字幕机打点),1小时的视频,需要耗费7-10小时才能完成。

而且,并不是所有的剪辑成果一遍就能过关,制片人或导演会进行审核,思路不对或者不达标,则需要不断返工、重剪,直到趋近完美状态。

2 AI的用武之地

「一期节目拍两三天。但是他们后期剪辑要剪10天,10天必须要出一期节目。相对来说,拍的时间还是很紧张的。」编剧、剪辑师们也想花更多的时间在创作上,而不是花大量时间来做这些基础的、比较影响他们创作效率的事情。

于是,爱奇艺技术产品团队便开发出基于AI的爱创媒资系统,通过AI技术帮助后期制作进行海量的视频和音频素材入库、整理及标注,实现素材的快速分类,并建立内容标签,进而辅助信号采集、DIT管理、精准合板、唱词、剪辑及发布。爱创媒资系统还斩获2018年度中国计算机学会(CCF)的「2018年CCF科学技术奖科技进步杰出奖」。

爱奇艺高级总监李顺龙和孙斌为我重点讲述了爱创媒资系统在合板、剪辑、扒词/唱词三个环节中的AI应用。

爱奇艺称,新进播出的《中国新说唱》(第二季)的拍摄过程中,每天有60台以上的机位同时进行拍摄,最长一天录制了近18个小时,有40T的拍摄素材需要合板。用传统的人工进行合板,大概需要6个人同时合板、用时1到1.5天才能完成。

而爱创媒资系统在1小时内即可完成所有素材的合板,且合板精度能达到95%0帧差,5%有1-2帧偏差,节省工作时间1.5天,合板人力成本节约100%。

怎么办到的?通过时间码或声纹将素材对齐。时间码(time code)是摄像机在记录图像信号的时候,针对每一幅图像记录的唯一的时间编码,一种应用于流的数字信号,该信号为视频中的每个帧都分配一个数字,用以表示小时、分钟、秒钟和帧数。现在所有的数码摄像机都具有时间码功能。

使用时间码合板,将多个不同机位的视频素材内容对齐到同一时间线

但也会出现两台摄像机之间时间完全对不上的状况。比如,有些被重置过的拍摄机器会变成出厂时间。

打板也是将素材对齐的一种方式,常用于棚拍综艺。但在真人秀这种有多个场景的节目中,无法做到在所有的摄像机前进行打板,因此,合板工具是一个需求。

打板,「action」,创造一个方便后制人员把声音与画面同步起来的同步点

「每个人的声音都是独特的,像指纹一样。」因此,爱奇艺将声纹作为音视频中识别人物的一种方法,利用声纹识别,快速在大量原始素材中定位某些人说话的所有片段,实现精准合板。

此外,爱奇艺利用声纹识别+ASR(语音识别)+语音分割技术的组合,自动将音频转换为带有说话人的文字内容,后续只需人工负责校对,使得扒词/唱词环节的工作效率提升80%。

语音分割:必须考虑语境、语法和语义,在一定程度上与文本分割中的一些问题重叠,因为在一些语言中,书写字符之间没有空格存在,如中文和日语,而其他语音中的字符间的天然分割(如空格)直接指明了分割的位置。)

爱奇艺还研发了基于AI的废片识别服务,利用深度学习模型筛除大量废片;以及实现了素材的多维度复合检索,在人脸识别、表情识别、手势识别、动作识别技术的帮助下,剪辑人员可以快速检索人物、时间段、表情/手势等信息,进而找到所需要的素材。

比如,在某个选手演唱时,编剧想找吴亦凡大笑的表情来编织剧情,只需要在「爱创媒资系统」中输入「吴亦凡」+「大笑」的关键词组合,就能马上检索、定位所有吴亦凡大笑的视频片段,进而直接从中挑选出部分片段作为节目的一部分。

据悉,爱奇艺创建的智能明星库中已经收录了100多万明星艺人,目前支持2万多明星的识别。表情识别方面,爱奇艺AI目前可识别笑、微笑、大笑、中立笑、哭、中立哭、生气、惊讶八种表情。

3 其他家AI技术在综艺节目后期制作中的应用

AI在媒资管理系统中的应用并非爱奇艺一家孤例。

因为在媒体资产管理(MAM)系统中给素材做标记是后期制作中一项极其重要且有效的任务,但相当乏味。而AI可以轻松执行这项任务,而且可能比任何人都更加多样化,速度也比任何人类快得多。

如果分析和标记一整天的视频只需要几分钟,而不是几个小时,同时提供比人类尝试更有价值的深度信息,那么效率和生产力都会显著提高。

共享媒体工作流协作解决方案开发商 ELEMENTS 和人工智能解决方案提供商 Veritone 就达成了一项新的协作。新的联盟允许 ELEMENTS Media Library 的客户利用 Veritone 的人工智能技术(包括语音到文本的转录、人脸识别、翻译、物体识别、内容审核、标志识别和光学字符识别)自动提取和分析元数据。

通过集成Veritone的aiWARE平台,ELEMENTS的媒资管理除了管理、共享和给媒体资产做标记外,还将能够利用认知引擎和功能强大的应用程序进行自动监控,进而分析、剖析和检索视频和音频素材。

并且,新AI功能将由ELEMENTS Media Library用户直接通过Adobe Premiere访问;因此,编辑器可以在不使用单独浏览器的情况下,直接从Premiere工作站搜索其媒体素材,从而充分利用各种优势。

除了爱奇艺,我也将「AI在综艺节目后期制作中有哪些应用」的问题抛给了优酷,相较于爱奇艺用AI提高后期工作人员的工作效率,优酷更倾向于用AI提高收视效果。

优酷告诉机器之心:在内容制作环节,通过内容理解AI,优酷实现了对视频中各个片段的理解,同时也会提供智能分析,反哺内容创作,指导后期的剪辑与内容优化。

以《这就是街舞》(第一季)为例,通过AI收视率曲线分析,能轻松获取到观影用户的喜好,比如在第五期各队齐舞环节,每个齐舞的收视高低就一目了然,节目组则会根据曲线的走势不断调整优化剪辑,提升收视效果。

产业图像识别语义分析客户画像CCF
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

文本分割技术

文本分割是将书面文本分割成有意义的单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时使用的心理过程,也适用于计算机中实现的人工过程,计算机是自然语言处理的主题。这个问题并不简单,因为虽然有些书面语言有明确的词界标记,例如书面英语的单词空间和阿拉伯语独特的最初、中间和最后的字母形状,但这种信号有时是含糊不清的,在所有书面语言中都不存在。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

语音分割技术

语音分割是在自然语言中识别单词、音节或音位之间界限的过程。这个术语既适用于人类使用的心理过程,也适用于自然语言处理的人工过程。

爱奇艺机构

2010年4月22日正式上线,推崇品质、青春、时尚的品牌内涵如今已深入人心,网罗了全球广大的年轻用户群体,积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。

http://iQIYI.COM
暂无评论
暂无评论~