作者李泽南

优酷发布最大工业级超高清视频数据集,超分辨率算法大赛落幕

在这场算法挑战赛上,不仅有刚刚出现在 CVPR 2019 的最新算法,还出现了年仅 18 岁的获奖选手。

在刚刚结束的 2019 云栖大会上,我们看到了阿里平头哥首款 AI 芯片「含光 800」、青橙奖和阿里数字经济的新布局。在会场的另一端,9 月 27 日,一场颇具挑战性的 AI 算法大赛也落下了帷幕。

仅依靠算法,我们就可以把 270p 的视频「重建」成 1080p 的画质吗?在人工智能技术发展的今天,被称为「超分辨率」技术正逐渐走向实用化。「阿里巴巴优酷视频增强和超分辨率挑战赛」就是一场寻找最强视频超分算法的比赛。

本次大赛自今年 5 月开始共历时 6 个月,吸引了 1514 支队伍参赛。最终有 6 支队伍进入决赛,在杭州的云栖大会上进行了最后的比拼。昨天,比赛决出了冠军:来自中国科学技术大学的陈嘉乐、单超炜成为了本届大赛的冠军。

对于视频内容进行图像增强,在超分辨率数据竞赛上开创了一个全新的领域。在这场比赛之后,优酷还开源了业内最大的视频超分辨率数据集。

最接近实际的超分辨率挑战赛

超分辨率是计算机视觉的经典研究方向,有关图像增强的论文经常出现在 AI 顶会上。人们总是希望能够「还原」低质量视频的细节内容,提高视频的清晰度,或在保证视频质量的情况下降低网络带宽的占用。该技术在工业界有着重要的实用意义,它甚至能够帮助我们改善早期胶片视频的质量和清晰度。

虽然可供使用的方法很多,本次比赛依然为参赛选手们带来了很大挑战。在决赛前,所有选手都接受了采访,大家对于比赛的感受达成了一致:「这次比赛非常真实、需要处理的数据量巨大——比之前参加的其他数据竞赛的数据要多几个数量级。完成这样的任务,非常有成就感。」

在数据集上,选手们在这里面对的是 1000 个视频,每个视频的时间长度为 4-6 秒。每个样本由低分辨率视频和高分辨率视频组成的视频对构成。低分辨率视频为算法的输入,高分辨率视频为增强和超分后的真值。其中,初赛视频 250 个,复赛视频 750 个。

阿里文娱资深算法专家,摩酷实验室负责人王晓博主持了决赛答辩

这场挑战赛还原的现实世界场景,也是众多参赛选手此前从未见到的——在视频中的台标、字幕对于超分辨率算法来说是非常难以还原的内容。但正是贴近真实情况的内容才能带来成就感:选手们提出的算法都是能够真正落地的技术。

在这次比赛中,选手们需要训练样本对视频增强和超分模型进行建模,对测试集中的低分辨率视频样本预测高分辨率视频。其中,高分辨率视频来自优酷高清媒体资源库。低分辨率视频的生成模型是模拟实际业务中的噪声模式。

对于算法恢复的视频和抽帧结果,本次比赛采用 PSNR 和 VMAF 两种评价指标。对于上传的完整视频,评估程序将计算 PSNR 和 VMAF 两种指标,均采用逐帧计算:PSNR 指标得分占 80%,VMAF 指标占 20%。另外还需要在限定的时间内输出结果,这对模型处理的效率提出了要求。

在决赛阶段,组委会还为每支队伍单独提供了阿里云 ECS 的实例,配置为 8 CPU, 60G 内存,双 GPU NVidia P100。参赛队伍需要在标准硬件条件下复现从训练到预测的代码及模型,保证预测过程能在 ECS 上独立运行。

本次竞赛的评委包括阿里巴巴达摩院高级研究员,IEEE Fellow 张磊、阿里文娱资深算法专家,摩酷实验室负责人王晓博、阿里巴巴资深算法专家任海兵、哈工大教授左旺孟、阿里视频云总经理朱照远、阿里资深技术专家江文斐等人。

张磊点评道:「本次大赛完成了开创性的探索,将实际应用场景带入了学术界的经典问题上,为学术界带来了很好的启发,弥补了学术界相关研究的不足。」

中科大夺冠

在本次比赛中夺冠的队伍是来自中国科学技术大学的「Avengers Assemble」。该团队在初赛和复赛中一直保持领先,并顺利取得了最后的冠军。

这支队伍的两名成员均为中国科学技术大学智能媒体计算实验室的研三学生。其中,陈嘉乐主要研究强化学习和计算机视觉,单超炜主要研究图像处理和增强。他们的研究也得到了中国科学技术大学陈志波教授、刘森博士,微软亚研高级研究员谭旭等人的指导。

在决赛答辩中,陈嘉乐对于团队采用的方法,以及目前超分辨率技术的现状进行了介绍。目前在业内,超分辨率方向上的算法主要从残差结构、多分支结构等方法通过增加参数量提升效果。与此同时,也有研究者提出了循环结构的模型希望通过参数共享降低计算开销,而渐进式结构模型则通过分阶段的方式进一步提升了超分辨率的处理效果。最近,人们也在研究注意力机制和基于 GAN 的超分辨率方法。

与图片的超分辨率不同,视频的超分辨率中,由于图像本身带有运动信息,参考帧和目标帧存在一定偏差,所以在进行处理时我们必须要寻求对齐。另外,视频模糊和场景切换问题也需要得到妥善解决。

「目前超分辨率与去噪方向的研究现状主要是:三维卷积、循环结构、滤波器预测。」陈嘉乐说道。

冠军团队使用的方法基于目前最为先进的超分辨率算法:在今年的计算机视觉顶会 CVPR 2019 上,商汤提出了 EDVR,相对于此前的业内最佳方法(RCAN),EDVR 算法视频超分辨率的结果能让我们看到更多细节,这一方法也实现了业内顶尖水平。作者提出了一种新的网络模块「PCD 对齐模块」,使用 Deformable 卷积进行视频的对齐,整个过程可以端到端训练。而在挖掘时域(视频前后帧)和空域(同一帧内部)的信息融合时,作者提出了一种时空注意力模型进行信息融合。

陈嘉乐等人认为,在竞赛任务中,EDVR 还存在感知能力不够强、时序信息不充分、特征表达不高效等问题。中科大团队针对这三个方向进行了自己的改进:

  • 在对齐模块中,EDVR 采用了多尺度的可变卷积,冠军团队借鉴了何恺明等人提出的 Non Local Neural Network,采用 Separate Non Local 把维度进行了分离,从而减少参数量,提升网络的感受野
  • 在时序信息问题中,冠军团队的算法在融合模块中使用 Temporal and Spatial Attention + 3D Convolution,加入了 3D 卷积,从而捕获时序上的信息。
  • 在特征表达的问题上,体现在重建模块上,给 ResNet Block 增加了 Channel Attention,提升了 0.3db 的指标。

其他决赛队伍

获得第二名的团队由清华大学的金侃、厦门大学的詹文鹏、江西财经大学的张东阳组成。他们采用了 RCAN 模型的改进算法,通过损失函数的调优和对于数据集的处理实现了很好的效果,在复现比赛中排名第二。他们提出在视频场景切换帧位置通过数据增强方式,训练类似帧的方法引起了评委们的关注。

金侃在决赛答辩中介绍了自己团队的方法

这次比赛中使用到的模型存在台标和字幕,这对于所有团队来说都是很大的挑战:不断变化的文字和背景图像毫无关联,区别明显,这会导致深度学习算法难以对其进行学习。金侃等人认为,在未来的研究中应当使用自然语言处理的方式对文字单独进行处理。这一思路得到了来自优酷的评委们的肯定。

此外,入围决赛的另一支团队「我的圣光啊」格外引人关注,参加决赛答辩的梅康夫年仅 18 岁,是来自香港中文大学(深圳)的研一学生。他所在的团队五位成员来自五所不同大学,平均年龄仅为 23 岁。最终这一组选手获得了「极客奖」。

梅康夫在决赛答辩中

除梅康夫以外,该团队的其他四个成员是队长雷天悟(来自多伦科技)、副队长高晓东(华南理工大学在读硕士),以及华东师范大学的李俊诚和上海大学在读硕士朱雅琴。

这支团队采用 RCAN 方案作为主体结构的视频超分辨率增强模型。其创新点在于引入自扩展残差学习,同时也引入了对于视频任务的 YUV 损失函数。值得一提的是,虽然需要对视频进行处理,该队伍并没有考虑时域的问题,只进行单帧的图像增强。选手认为多帧关联的考虑会降低网络性能,所以希望把单帧的网络做到极致。只用单帧处理就能打入决赛(前六)不得不说是非常亮眼的成绩。

推出视频超分和增强数据集

本次竞赛中,优酷不仅为大家展示最前沿超分辨率算法提供了平台,而且还提出了出了业界最大、最具广泛性的数据集,包括不同内容品类,不同噪声模型、不同难度等。

数据集地址:https://tianchi.aliyun.com/dataset/dataDetail?datald=39568

优酷表示,该数据集包含 10,000 个样本,数据总量达到 3T。其中采用的噪声参数完全是模拟实际业务中的噪声模式,研究人员可以真正的在实际场景中打磨算法。

「增强和超分辨率在多媒体内容里是较为经典的问题,」王晓博表示。「我们希望通过打造这一数据集促进工业界和学术界研究的发展,让工业界和学术界更加紧密地结合。让视频更加清晰。」

这些视频均来自优酷高清媒资库,优酷拥有这些视频的知识产权。据悉,该数据集的样本计划分 3 次对外公开:第一批数据集在 1000 个视频左右,已在本次比赛中使用;比赛结束后,即将公开的约有 2000 条视频;剩余的 7000 个视频将在后续公开。

本数据集包括超分和增强视频数据、评测程序和数据说明三个部分。

数据每个样本由低分辨率视频和高分辨率视频组成的视频对构成。低分辨率视频为算法的输入,高分辨率视频为增强和超分后的真值。每个视频的时间长度为 5 秒左右。绝大部分高清数据的分辨率是 1080P,大约 300M。由于是 4 倍超分辨率,低质视频分辨率为 270P,大约 19M。少量高清数据的分辨率是 2048×1152,低质视频分辨率为 512×288。视频数据为无压缩的 y4m 格式。

本次赛事上第一批公开的 1000 个视频,总共数据量就已超过 300GB。

示例样本截图,左边为高清视频截帧,右边为低质视频截帧。

评测程序代码示例也已包含在数据集中。

在本次比赛中,选手们也发现了在实际业务场景中,PSNR 和 VMAF 指标并不能真实反应人眼对于视频质量的感知。PSNR 的少量提升也许意味着人眼对其并无体感差别。这也是当下视频处理行业普遍遇到的问题。

目前,优酷正着眼于研发更符合人类视觉特性的质量评价指标。在未来,优酷超分大赛的评价准还会进行新的变革,人眼真实感知将会成为算法评价标准,这对于参赛队伍来讲会更具挑战,但也更有意义。

工程数据集图像超分辨率重建优酷阿里巴巴
2
相关数据
损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

感受野技术

一个感觉神经元的感受野是指这个位置里适当的刺激能够引起该神经元反应的区域。感受野一词主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。

视频超分辨率技术

视频超分辨率是将视频从低分辨率升级到高分辨率的任务。

推荐文章
暂无评论
暂无评论~