张倩报道

用技术致敬每一位妈妈,B站up主用AI还原李焕英老照片动态影像

「从我有记忆开始,妈妈就是中年妇女的模样,所以我会忘记,她也曾是花季少女。」

春节档上映的《你好,李焕英》让不少人在影院哭得稀里哗啦,它戳中了每个人心里最柔软的部分。有人看完电影之后会给妈妈打个电话,有人会拿出妈妈年轻时的照片,感叹一下爸爸的基因为什么要那么强大。

B 站知名 up 主大谷也是《你好,李焕英》的影迷之一,不过他做了一点不一样的事情:尝试用一系列 AI 技术修复了李焕英年轻时的黑白照片,不仅给照片上了色、提高了分辨率,还让照片中的人物动了起来。

原始黑白照片。

修复后的动态彩色照片。

整个修复的流程并不复杂,涉及 AI 色彩还原、AI 清晰度增强、脸部精修、手绘微调等过程:

最终的修复效果如下:

大谷表示,他是偶然间看到了这张老照片,很有感触,于是试着用 AI 脑补还原了一下拍摄前的动态影像。不过,由于还原场景动态与上色是基于 AI 技术生成,具有一定的想象元素,因此不等于准确还原。
为了帮助大家掌握这项技能,大谷还公布了他用到的两个开源项目:飞桨 PaddleGAN 和 DFDNet。

飞桨 PaddleGAN

GAN 的全称是生成对抗网络,被「卷积网络之父」Yann LeCun(杨立昆)誉为「过去十年计算机科学领域最有趣的想法之一」,是近年来火遍全网、AI 研究者最为关注的深度学习算法方向之一。

GAN 在诸多领域都有着成功的应用,如图像生成 / 修复、超分辨率、图像噪声消除、换装 / 妆、图像风格迁移、文字 / 声音生成等,覆盖互联网、娱乐、游戏等各个行业。

为了给开发者提供经典及前沿的生成对抗网络高性能实现,并支撑开发者快速构建、训练及部署生成对抗网络,百度飞桨打造了一个图像生成模型库——PaddleGAN,覆盖 Pixel2Pixel、CycleGAN、StyleGAN2、PSGAN 等经典 GAN 模型,支持视频插帧、超分辨率、老照片 / 视频上色、视频动作生成等应用。

除了上面展示的视频修复,PaddleGAN 还能提供各类不同的图形影像生成、处理能力。人脸属性编辑能力能够在人脸识别人脸生成基础上,操纵面部图像的单个或多个属性,实现换妆、变老、变年轻、变换性别、发色等,使得一键换脸成为可能 *;* 动作迁移能够实现肢体动作变换、人脸表情动作迁移等。

比如这样: 

让苏大强表达心中之痛,唱起 unravel(视频链接:https://www.bilibili.com/video/BV1Yy4y1r7DC)。

这样: 

还有这样: 

PaddleGAN 项目链接:https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md

DFDNet

近年来,基于参考的人脸修复方法已经受到了很多关注,但这些方法大多需要来自相同身份的高质量的参考图像,因此只适用于有限的场景。为了解决这一问题,来自哈尔滨工业大学、香港大学等机构的研究者在《Blind Face Restoration via Deep Multi-scale Component Dictionaries》一文中提出了一种名为深度人脸字典网络(deep face dictionary network,DFDNet)的方法来指导退化观测(dgraded observation 的修复过程。

首先,作者使用 K-means,利用高质量图像为感知显著的人脸部位(如左 / 右眼、鼻子和嘴)生成深度字典。接下来,利用退化输入(degraded input),研究者从相应的字典中匹配和选择最相似的部位特征,并通过提出的字典特征迁移块(DFT)将高质量的细节迁移到输入上。最后,利用多尺度字典逐步实现从粗粒度到细粒度的修复。

实验结果表明,作者提出的方法在定性和定量评估中都能实现合理的性能。更加重要的是,该方法可以在不需要 identity-belonging 参考的情况下,利用真实的退化图像(degraded image)生成逼真、有前景的结果。以下是一些人脸修复效果展示:

该网络的基本结构如下:

网络主要包含两个部分:a. 从大量包含各种姿态和表情的高质量图像中离线生成多尺度组件字典。这部分使用 K-means 算法为每个部位(即左 / 右眼、鼻子和嘴)在不同尺度上生成 K 个簇;b. 修复过程和字典特征迁移(DFT)块,用于以渐进的方式提供参考细节。
  • 论文链接:https://arxiv.org/pdf/2008.00418.pdf

  • 项目链接:https://github.com/csxmli2016/DFDNet

参考链接:
https://mp.weixin.qq.com/s/xSic1Tk93dk_N1qMylymtg
https://www.bilibili.com/video/BV1wh411k7YN?p=1&share_medium=iphone&share_plat=ios&share_source=WEIXIN_MONMENT&share_tag=s_i×tamp=1613972331&unique_k=KQGwoS 
入门你好,李焕英AI还原彩色动态照片大谷
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

CycleGAN技术

GAN的一个变种

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

人脸生成技术

人脸生成是从现有数据集生成(或插值)新面孔的任务。

生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

视频插帧技术

视频插帧是指在原始视频帧之间合成不存在的帧。

推荐文章
暂无评论
暂无评论~