张倩、蛋酱报道

剃头挑子、京韵大鼓、摆地摊,AI技术重现的老北京原声影像又火了,网友:这口音太过真实

「大谷的游戏创作小屋」又用AI修复了一段老北京影像,这次还带时代原声……

剃头挑子、街边地摊、京韵大鼓,多数人可能只在电影、电视剧中看过老北京的这些景象。但早在 90 年前,就有人将这些场景都拍了下来,而且完好地保存在美国南卡罗莱纳大学影像库。影片中还收录了时代原声,原汁原味地记录了当时老北京的平民生活。
90 年后,有人将这些影片翻了出来,还用 AI 进行了修复,包括上色、提高分辨率等操作。

从这段影片中,我们能看到很多非常生活化的场景,比如小学生在学校外边买饭:

小伙子找个剃头摊剃头:


在观赏修复效果的同时,我们还能听到剃头师傅和小伙子一问一答:

「疼不疼?」
「不疼。我还不哭呢外带着。」
「嘿,你家什么地方住?」
「宝坻县」
「这头剃得好,不疼。剃不好,真疼!」「剃好了咱还找你去」
「你家几口人呐?」
「十口!」
「十口人?怎么那么些人呢?」
「人多,好。」
「一天挣二毛钱够挑费不?」
「一天挣两块!」
「哦,这还不错。」

这段场景被当时的拍摄者描述为 「不用付租金的理发师」。

剃完之后,小伙子还不忘给个好评,一边拍着脑瓜一边说:「剃挺好!」 那时候的人大概没有预料到,在 90 年后的今天,现代人都忙着生发、植发、戴假发……

希望坐在电脑前的你变强变秃后也能保持这份心态。

剃完了头逛逛街吧,看看 90 年前的首都地摊长什么样:


可以看到,90 年前的北京街头也是人头攒动,有卖衣服的、卖(遛)鸟的、卖各种小商品的,其热闹程度似乎不亚于疫情前的王府井。

除了这些,街头还有一些老艺人,向我们呈现百年前的京韵大鼓:


看到这里,你或许已经猜到了这段视频的修复者,他就是前段时间很火的 B 站 up 主 「大谷」。就在不久前,大谷在他的 B 站账号「大谷的游戏创作小屋」 上发布了第一个老北京修复影片 。截止目前,该视频的累计播放量已经达到 200 多万,还得到了央视等权威媒体的报道。

这次的修复影像由「大谷的游戏创作小屋」和央视新闻联合发布。原视频出处为南卡罗莱纳大学影像库馆藏胶片,音效也不是后期配音,全部为时代原声。

看完之后,很多人才发现,一百年前的北京市民和现在长得一模一样,口音也如出一辙:「还在想回去要咋交流,原来一样的哈哈哈」

还有人评价说,「剃头的俩人像在说相声”。


这次修复用了什么技术?

在第一期的老北京影像修复过程中,UP 主借鉴了海外 YouTube 博主 Denis Shiryae 的影像修复教程,包括上海交大 Bao Wenbo 等人提出的 DAIN 插帧技术(参见论文《Depth-Aware Video Frame Interpolation》)。

这一次,UP 主特别提到,除了上述修复技术,自己还用到了一种新技术:DeepRemaster。

论文地址:http://iizuka.cs.tsukuba.ac.jp/projects/remastering/en/index.html

这项技术由日本筑波大学和早稻田大学的两位研究者合作提出,论文被计算机图形学顶会 SIGGRAPH Asia 2019 收录。与近年来使用递归模型处理视频的方法不同,该方法对老旧影像的修复是基于全卷积网络实现的。

老旧影片的修复包含多项步骤,比如超分辨率、噪声消除和对比度增强,旨在让已经老化的影片介质恢复到原始状态。当然,由于特定时代的技术限制,许多老旧影片要么是黑白影像,要么色彩呈现质量较低,因此在修复中也常常需要着色。

在这项研究中,研究者提出了一个单一框架,以半交互的方式处理所有重制任务。该框架基于带有注意力机制的时间卷积神经网络。他们提出的 source-reference 注意力允许模型处理任意数量的彩色参考图像(reference color images),在不需要分割的情况下给长视频着色,同时保持时间一致性。与之前的方法相比,该方法的性能随着视频长度和彩色参考图像数量的增长而增长。

DeepRemaster 的网络架构如下:

输入一系列的黑白图像,通过预处理网络修复,修复的结果作为最终输出视频的亮度通道。然后,source-reference 网络将预处理网络的输出和任意数目的彩色参考图像结合,产生视频的最终色度通道。

在着色过程中,研究者使用了 source-reference 注意力,让模型依照彩色参考图像中相似区域的颜色对视频进行着色。模型输出部分就是输入视频重制后的版本。

为了测试网络的效果,研究者对一些老旧影像进行了重制,并对该方法进行了定量和定性的深入评估。

在下图中,每个视频最上面一行的图像是着色的参考图像。实验结果表明,利用 source- reference 注意力,使用少量参考图像即可高效获得稳定、一致的数千帧图像。

《Right to Health, A (Part I)》重制结果, 使用了三张参考图像。

《Freedom Highway (1956)》重制结果,使用了两张参考图像。

《The Jungle Book(1967)》重制结果,使用了 41 张参考图像。

与以往方法相比,用 DeepRemaster 重制的图像与真实世界的色彩更加一致。

在噪声消除方面,DeepRemaster 能够很好地处理各种类型的噪声,同时也能够锐化输入图像。

如果你也对影片修复感兴趣,可以参考论文中的方法。
产业人工智能
相关数据
全卷积网络技术

全卷积网络最开始在论文 Fully Convolutional Networks for Semantic Segmentation(2015)中提出,它将传统卷积神经网络最后几个全连接层替换为卷积层。引入全卷积的意义在于它能实现密集型的预测,即在二维卷积下对图像实现像素级的分类,在一维卷积下对序列实现元素级的预测。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

推荐文章
暂无评论
暂无评论~