Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜伟作者

4K版《葫芦兄弟》,西瓜视频计划修复百部经典动画片,背后原来藏着这些AI算法

「经典作品凝结了老艺术家的智慧与精神,值得投入大力气做好修复。」提到 4K 经典中视频修复时,西瓜视频总裁任利锋这样说道。


「葫芦娃,葫芦娃,一根藤上七朵花,风吹雨打,都不怕,啦啦啦啦……」

当这首熟悉的旋律响起时,很多 80、90 后的脑海中浮现出的想必是黑白电视机版的《葫芦兄弟》,或者是更鲜艳的彩色版本:

现在来看,无论是画面的清晰度还是色彩的明亮度,这些稍显「古老」的视频已经无法满足当代人的观看需求了。另外,随着图像超分辨率、FPS 提升、色彩填充等各种 AI 技术不断地进步,越来越多的个人用户和视频网站想要对老视频进行修复,比如 1080、2K 和 4K 修复,以更清晰的视角重拾旧时光。

与此同时,4K 高清设备和 4K 视频内容的普及也使得对经典老影片进行 4K 修复成为一大需求,修复后的影片既能保留原始质感,又可以展现更清晰的画质、更饱满的色彩和更棒的音效。

然而,经典中视频何止千万,4K 修复的工程量浩瀚,又当如何满足人们对 4K 经典老影片的观看需求呢?

西瓜视频携手火山引擎,给出了他们的答案。

10 月 20 日,西瓜视频联合火山引擎举办了主题为「重修旧好」的经典中视频 4K 修复发布会,会上宣布将通过技术手段,在一年内 4K 修复百余部经典中视频。其中,火山引擎团队提供技术支持,修复后的视频内容,用户可免费在西瓜视频上观看。西瓜视频也将开放入口,为普通用户免费提供 AI 修复支持,同时对有价值的视频提供深度的公益修复。

西瓜视频总裁任利锋表示,「修复经典是传承,也是用新技术最大化还原作品,带给大家新的感受和认知。不管是修复动画片,还是修复老影像,归根到底,都不只是为了提高它的清晰度。我们想要修复的是这些内容背后的记忆,呈现几代人因为这些记忆隔空产生的共鸣和火花。」

任利锋。图源:西瓜视频

会上还公布了首批合作伙伴,包括央视动漫和上海美术电影制片厂,计划修复的百部影片部分如下:
  • 哪吒传奇(2003)、围棋少年(2005)、围棋少年(2)、大头儿子和小头爸爸(1995)、 黑猫警长 1-5 集、我为歌狂(2001)、三个和尚、小鲤鱼历险记(2007)、葫芦兄弟(1986)、葫芦小金刚 1-6 集、西游记、小蝌蚪找妈妈、小鲤鱼跳龙门、大耳朵图图(第一季)、舒克和贝塔 1-13 集等。

目前,小鲤鱼历险记(2007)、小蝌蚪找妈妈、哪吒传奇(2003)、黑猫警长 1-5 集、大头儿子小头爸爸和葫芦兄弟等六部动画片已经完成了 4K 修复,并可以在西瓜视频上观看了。

我们先来欣赏下 4K 修复后的影片《小鲤鱼历险记》片段:

给老胶片上 4K 分辨率虽难,但意义重大

在阐述 4K 影片修复的难点之前,我们先简单罗列几个数字,老式标清电视的分辨率仅为 720x480,也就是说一次可显示的内容为 345,600 像素;高清电视的分辨率为 1920x1080,总像素为 2,073,600,是标清的 6 倍;具有新一代好莱坞大片分辨率标准的 4K,它的分辨率为 4096×2160,需要 8,847,360 像素。

常见的几种标准视频分辨率。图源:wikipedia

从技术上来讲,4K 修复需要将胶片数字化扫描为分辨率为 4096×3112 的序列帧图像文件,然后通过 4K 数字中间片制作方式对影像进行修复。比如,2019 年 11 月在内地上映的 4K 修复版《海上钢琴师》就是将 35 毫米的胶片修复成 4096×3112 分辨率。说起来容易,但真正修复起来困难重重。一般来说,影片修复分为物理修复、数字修复和艺术修复三大步骤

首先,很多年代久远的影片胶片,不可避免地存在霉变、污染、脱色、闪烁、噪声、色变、丢帧等损伤,还往往会有灰尘、污垢等表面问题。这是修复面临的第一道难关,通过物理修复对老胶片进行清理、接补等工作,以待后续的数字化修复。

其次,使用胶片扫描仪对物理修复完成的胶片进行胶转数(2K 或 4K)处理。在这一环节中,利用专业软件自动修复胶片中存在的脏点、霉斑、划痕、等问题,然后进行颜色还原,输出高格式的画面镜头。从步骤上讲,2K 修复与 4K 修复并没有区别,只是 4K 修复需要更多的人力和财力。有数据显示,普通的 2K 修复(分辨率 2048×1556)完全依赖人工大概需要两个星期才能完成一部,花费在 30 万元左右。4K 修复(分辨率 4096×3112)的工作量是 2K 修复的 4 倍,需要两三个月、甚至半年的时间才能完成一部。

最后,对修复影片的艺术化处理也不容忽视。有从事老影片修复工作的专业人士表示,影片修复最困难的其实不是技术修复,而是艺术修复。修复人员的艺术修养对「还原老电影的感觉」至关重要,修复后的影片不仅要表面光鲜,还有味道纯正。

虽然面临着技术等方面的挑战,但一些具有重要文化、艺术价值以及历史意义的经典老影片的 4K 修复很有必要。国内很早就兴起了老电影修复热,2006 年底中国电影资料馆牵头启动了「电影档案影片数字化修护工程」项目,上海国际电影节于 2011 年启动国产电影修复计划,爱奇艺等多家视频网站也发挥自身优势投入到老旧影视作品的修复中等。

此次,西瓜视频联合火山引擎发起的「经典中视频 4K 修复计划」,将成为老片修复大军中的新生力量,为经典中视频的传承贡献自己的一份力量。

火山引擎用到的这些 AI 算法,有什么独到之处?

作为字节跳动旗下的企业级技术服务平台,火山引擎将字节跳动快速发展过程中积累的增长方法、技术工具和能力开放给外部企业,提供云、AI、大数据技术等系列产品和服务,帮助企业在数字化升级中实现持续增长。其中,在火山引擎技术中台的多媒体中台中,智能处理是字节基于多年对多媒体智能处理的实践经验,提炼出的全流程视频前后智能处理及增强技术,主要能力模块包含画质增强、视频 DNA 等。

智能处理技术的一大子功能即是老片修复。在 4K 修复过程中,火山引擎从清晰度、流畅度、色彩和瑕疵四个方面解决老片的清晰度低、流畅度低、色彩失真和瑕疵多问题,其中多个 AI 算法的使能是关键,包括如下:

  • 智能超分

  • 智能插帧

  • 色彩增强

  • 消除瑕疵(视频降噪和划痕修复)

  • 锯齿修复


在这几个 AI 算法的加持下,火山引擎针对 4K 极致画质体验场景(如西瓜影院模式),提供了极致画质修复方案,提升源视频的分辨率、帧率和色域,进行高质量智能转码,达到极致的播放视频画质。

火山引擎智能处理的完整流程。

智能超分

作为一项非常重要的视频处理技术,超分辨率通过硬件或软件的方法提高原有图像的分辨率,目的是根据一系列低分辨率的图像重建一幅高分辨率的图像。基于深度学习的超分辨率算法已经是近年来研究的热点,主流的方法一般分为单帧超分和多帧超分

单帧超分即输入一张图片,输出其高分辨率图片。单帧超分辨率典型结构有预定义上采样(predefined upsampling)、单一上采样(single upsampling)等;多帧超分则考虑视频前后关系,重建更多细节。但这些超分辨率方法存在一些瓶颈,当上采率比较高时,例如 16 倍,很多算法不能很好地重构出对应的高清图像。

火山引擎的智能超分算法基于深度学习方法,根据已有的图像、视频信息重构出缺失的细节。特别对于视频任务,使用前后帧信息并对其进行时域建模恢复出额外的细节。在老片修复任务中,针对画面普遍存在的清晰度差、模糊和分辨率低等问题,智能超分可以显著提升清晰度和分辨率。相较于其他超分辨率算法,智能超分算法具有两大优势。

一方面,针对老片场景的模糊退化专门进行建模,从而优化清晰度效果。效果是这样的,720P 的源动画经过超分辨率重建和去模糊后,达到了 4K 分辨率的超高画质。

另一方面,对内容进行自适应处理,根据不同区域分片处理,保持原有画风。我们以动画片《葫芦兄弟》为例,该片为水墨和剪纸的组合。在修复时,既要保证人物锐利,又要兼顾水墨背景的艺术效果。这对技术能力要求非常高,需要机器能够准确地识别好前景和背景。

从如下动效图来看,修复后(右边)的水墨画区域保持了朦胧感,剪纸区域提升了清晰度,彰显了智能超分的强大超分处理能力:

智能插帧

视频帧数是影响观影体验的重要因素之一,通常来说,单位时间内人眼看到的连续帧越多,人们对于影片会产生更真实更自然的主观感受。也就是,帧数越大,视频就越流畅。插帧技术可以实现低帧率视频向高帧率视频的转换。

国内外也出现了很多插帧技术,如基于 SVP(Smooth Video Project)的插帧渲染可以将 24 帧 / 秒的视频转化为 48 或 60 帧 / 秒、英伟达的神经网络脑补大法 Super SloMo 将帧率为 30 帧的视频补到 60 帧、240 帧甚至更高、上海交大开源的插帧算法 DAIN 更是可以将 30 帧的视频插帧到 480 帧。

在老片修复中,老动画片受限于制作成本,绘画帧数较少,一般为 15 帧以下,导致画面流畅度差,有卡顿感,更需要插帧算法的参与。

因此,火山引擎采用的智能插帧算法通过分析前后帧的运动和内容,对中间帧进行生成,将原先不足 15 的帧率,提升至 60 以上,大幅提升流畅度。此外,由于动画纹理较少,常规倍帧方案难以判断前后帧对应的运动块,火山引擎使用块光流进行优化,实现了更精准的插帧结果

动画《哪吒传奇》中画面的前一帧、插帧和后一帧示意图如下:

色彩增强

色彩失真是老片存在的又一大问题,这主要是由以下两个原因造成的。

其一,胶片在转录和数字化流程中受转录设备的影响,带来了不同程度的色彩偏移,从而背离创作者最初想要表达的画面。

其二,老片制作流程通常基于旧的播放场景和制作标准,采用较窄的色域和较低的亮度动态范围,导致亮度动态范围普遍比较低,画面对比度也就比较差,看起来很昏暗。而如今大部分的中高端手机机型已经开始支持 HDR 播放,具有 1200 nit 甚至更高的屏幕亮度和 DCI-P3 的广色域显示。

针对造成老片色彩失真的两方面原因,火山引擎的色彩增强方案进行了有针对性的处理。一方面,基于 AI 进行画面色偏检测和修复,还原创作者初衷;另一方面,SDR 到 HDR 的转换(SDRToHDR)可以将画面动态范围和色域映射到更大的空间(峰值亮度 100nit 到最大 10,000nit,BT.601 到 BT.2020),充分利用用户显示设备的能力,获得最佳显示效果。目前,火山引擎的 SDRtoHDR 色彩增强方案处于业界先进水平。

SDRToHDR 修复前后的《大头儿子小头爸爸》画面对比如下,可以看到,右边画面在色彩明度和丰富度方面均有显著提升:

消除瑕疵

由于年代久远以及保存不当等主客观因素的影响,老胶片可能会出现物理和化学损伤,导致视频画面布满雪花碎片、黑线和闪动等多类型瑕疵。这时,就需要进行视频降噪和坏点划痕修复

视频在采集、剪辑、编码、转码、传输、显示等过程中会出现失真,噪声就是信号采集过程中引入的一种普遍失真。降噪成为了增强视频画质和提升清晰度的一种手段。传统视频降噪算法可以分为基于空间域和基于时域的降噪,基于机器学习的视频降噪算法也得到了越来越多的研究,如 2019 年 4 月荷兰代尔夫特理工大学提出的深度盲去噪算法 ViDeNN 等。

对于老电影,由于胶片自身的损伤,背景上一般都会有很多坏点划痕,比如一条条的竖线。去划痕非常有必要。经典解决方法通常分两步走:检测和去除。划痕检测大多采用直线检测方式,找到空间中的竖线、横线,然后利用空间或时间插值把这条线用别的像素给补上去。

但是,相较于常见的视频瑕疵,老片的瑕疵不仅类型复杂而且程度更严重,为此火山引擎结合了传统信号处理深度学习算法,对噪声和坏点划痕进行有针对性的修复:对于较小的雪花颗粒噪声,使用传统算法进行处理;对于较大的坏点和划痕,使用机器学习算法进行识别和修补

效果立竿见影,从下图《布谷鸟叫迟了》画面的修复对比效果可以看到,算法强力地修复了瑕疵,并且保留原有纹理不受影响:

然而算法也不是万能的。在实际修复过程中,如果要求算法实现 100% 的处理瑕疵,那么会很容易将一些艺术效果也识别为瑕疵,从而对影片造成了破坏。

因此,在这次老片修复过程中,火山引擎采用了算法处理和人工标注结合的方案,其中算法大概能解决 95% 以上的瑕疵问题,剩余 5% 的瑕疵需要由人工辅助标注。然后告诉算法,再调整算法做二次优化。这样一来,我们既可以比较彻底地消除瑕疵,也能保护影片原有的艺术风格。

不过,对损伤严重的老片来说,彻底消除瑕疵需要投入大量人力。以《葫芦兄弟》为例,修复团队在消除瑕疵的过程中看了 20 万帧的画面。

锯齿修复

老片在数字化的过程中,采样做的不好,往往会出现频谱混淆的锯齿效应,导致观感不佳。目前,业界的大部分锯齿修复都是针对低分辨率向上采样导致的情况进行处理,老片中的锯齿很多是向下采样时出现的。因此,对于已经产生的频谱混淆的情况,业界算法大多都没法处理。

下图左哪吒出世画面中明显的线条锯齿正是向下采样频谱混淆导致的,这一问题只在部分场景中出现,很难定位,但不解决的话会严重影响观感,也会影响其他算法的效果。因此,针对这种场景,火山方案单独设计了一个优化算法,使画面锯齿效应得到非常大的改善

我们还应该看到,每个动画片存在的画质问题不可能完全相同,对此火山引擎采用了「对症下药,一片一方案」的应对方法。火山引擎多媒体实验室研究员赵世杰解释道,一部动画片(以《黑猫警长》为例)可能会在分辨率、帧率、瑕疵、色彩、模糊和锯齿中的几个方面存在着问题,那么就有针对性地采取超分辨率、倍帧、去噪、去划痕和 HDR,实现最精准的视频修复。

最后需要提到的是,4K 修复使用到的这些技术,目前已通过火山引擎智能处理向包括抖音、今日头条、西瓜视频、皮皮虾 APP、图虫、虎扑和懂球帝等内外部的客户提供服务,从而让更多的企业参与到老片的修复中,为当代观众带来更多的 4K 超高画质影片。

火山引擎智能处理官方网站:https://www.volcengine.com/products/IMP

参考链接:
http://www.atyun.com/46758.html
https://www.jiqizhixin.com/articles/2020-05-10
https://cloud.tencent.com/developer/article/1089304
http://www.xinhuanet.com/ent/2019-10/21/c_1125129740.htm
https://kjt.hebei.gov.cn/www/kxpj22/kxbl56/197445/index.html
http://culture.people.com.cn/n/2013/0910/c172318-22873573.html
产业视频修复
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

上采样技术

在数字信号处理中,上采样、扩展和内插是与多速率数字信号处理系统中的重采样过程相关的术语。 上采样可以与扩展同义,也可以描述整个扩展和过滤(插值)过程。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

爱奇艺机构

2010年4月22日正式上线,推崇品质、青春、时尚的品牌内涵如今已深入人心,网罗了全球广大的年轻用户群体,积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。

http://iQIYI.COM
围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

视频插帧技术

视频插帧是指在原始视频帧之间合成不存在的帧。

暂无评论
暂无评论~